본문 바로가기

반응형

Computer Engineering/Big Data Analytics Using Python

(17)
[빅데이터 분석] 스몰데이터 통계 Part.1 추론통계 빅데이터를 분석을 하면서 기술통계를 사용했다. 만약 스몰데이터로 분석을 하려면 어떻게 할까? 스몰데이터로 데이터 분석을 하려면 한계가 존재하는데 스몰데이터에서 한계는 모집단의 값을 모두 알 수가 없다는 것이다. 빅데이터 시대인 요즘은 모집단을 모두 파악하기 쉽지만 스몰데이터 시대에는 모집단을 파악하려고 하기 보다는 모집단을 대변하는 표본을 가지고 모집단을 추론하는 방법을 택했다. 모집단 관심의 대상이 되는 모든 개체의 관측값이나 측정값의 집합 표본 모집단에서 실제로 추출한 관측값이나 측정값 모수 모집단의 특성을 나타내는 값 그리스, 로마자로 표시하며 평균은 µ [뮤] 표준편차는 σ [시그마] 통계량 표본에서 게산한 특성 알파벳으로 표시 평균은 X̄[x바] 표준편차 s 가설수립 가설검정 오류 통계..
[빅데이터분석 실습] 스몰데이터 통계 Part.1 T-검정¶ In [10]: import numpy #표본 집단을 랜덤 값으로 생성하기 위해서 사용 from scipy import stats #t검정 수행을 위한 패키지 (내장) In [11]: #학생 키에 대한 리스트 구성 height_list=numpy.array([169,167,175,166,162,180,172,162,173,162,181,175,181,181,162,165,172,176,167,165]) In [13]: #T-검정 수행 #귀무가설이 참인 경우 학생들의 평균 키는 170cm와 차이가 없다. 그러므로 평균키는 170cm이다. #(P>0.05) #귀무가설이 거짓인 경우 학생들의 평균 키는 170cm와 차이가 있다. 그러므로 평균키는 170cm가 아니다. #(P
[빅데이터 분석 프로젝트] 마크다운으로 타이타닉 탑승객의 생존률 보고서 작성하기 -Part 2 데이터 분석처리¶ 데이터 분석 순서¶ 1. 원 데이터 백업¶ 2. 데이터 클린징¶ 3. 데이터 보기¶ 4. 데이터 탐색¶ In [178]: import pandas as pd import matplotlib as mpl import matplotlib.pylab as plt import seaborn as sns import numpy as np import math 1. 원 데이터 백업¶ In [179]: file_path='C:\\Users\\titanic.csv' df=pd.read_csv(file_path) df databackup=df.copy() df.to_csv('C:\\Users\\titanicdatabackup.csv') In [180]: file_path='C:\\Usersn\\tita..
[빅데이터 분석 프로젝트] 마크다운으로 팁 데이터 분석 보고서 작성하기 -Part 2 ¶ 데이터 분석 순서¶ 1. 원 데이터 백업¶ 2. 데이터 클린징¶ 3. 데이터 보기¶ 4. 데이터 탐색¶ In [289]: import pandas as pd import matplotlib as mpl import matplotlib.pylab as plt import seaborn as sns import numpy as np import math 1. 원 데이터 백업¶ In [293]: df=sns.load_dataset("tips") df df.to_csv('C:\\Users\\tipsdata.csv') file_path='C:\\Users\\tipsdata.csv' df=pd.read_csv(file_path) df databackup=df.copy() df.to_csv('C:\\Users\\..
[빅데이터 분석] 10minutes pandas (1) 10 minutes to pandas¶ In [1]: import numpy as np import pandas as pd 객체 생성¶ 데이터 프레임 만들기¶ In [10]: dates = pd.date_range("20130101", periods=6) dates Out[10]: DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04', '2013-01-05', '2013-01-06'], dtype='datetime64[ns]', freq='D') In [11]: df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list("ABCD")) df Out[11]: A B C D 2..
[빅데이터 분석] 6장. 데이터 탐색 1. 데이터 그룹 분석 집계함수 사용 groupby함수 그룹 분석 공식 1. 범주형 변수로 그룹 연산 기준을 선정 2. 범주형을 기준으로 연속형을 묶는다. -> 사용할 데이터 불러오기 -> 사용할 범주형 데이터 선정 -> get_group : 선택한 범주형 데이터중 하나의 데이터를 선정 -> groupby(['범주형','범주형']).mean() : 범주형 데이터와 범주형 데이터의 그룹 -> df['연속형'].groupby(df['범주형']).함수() :범주형 중 연속형의 함수 -> df.groupby(df['범주형'])['연속형'].함수() 범주형 중 연속형의 함수 => 같은 구문 -> df['math'].groupby(df['class']).mean() 반별 수학 평균 df['math'].groupby..
[빅데이터 분석 프로젝트] 마크다운으로 따릉이 데이터 분석 보고서 작성하기 -Part 1 따릉이 데이터 분석¶ 따릉이 데이터를 이용해 데이터 클린징 실습¶ 데이터 분석 순서¶ 데이터 백업 데이터 보기 [파생 변수 만들기] 데이터 클린징 [결측 데이터 대체하기] 결측 데이터¶ 이상 데이터¶ 중복 데이터¶ 결측 데이터¶ 결측 데이터 확인¶ In [2]: import pandas as pd file_path = 'C:\\users\\jihoon\\bigdata\\6장데이터\\bicycle.csv' df=pd.read_csv(file_path, engine='python') In [3]: df Out[3]: 자전거번호 대여일시 대여소번호 대여소명 대여거치대 반납일시 반납대여소번호 반납대여소명 반납거치대 이용시간 이용거리 0 SPB-23220 2019-11-01 8:48 646 장한평역 1번출구 (국..
[에러잡기] UnicodeDecodeError가 뜰 때 데이터 불러오기 중 UnicodeDecodeError이 뜬다면 인코딩 설정을 해야한다. encoding="euc_kr"

반응형