728x90
반응형
추론통계
빅데이터를 분석을 하면서 기술통계를 사용했다.
만약 스몰데이터로 분석을 하려면 어떻게 할까?
스몰데이터로 데이터 분석을 하려면 한계가 존재하는데
스몰데이터에서 한계는 모집단의 값을 모두 알 수가 없다는 것이다.
빅데이터 시대인 요즘은 모집단을 모두 파악하기 쉽지만 스몰데이터 시대에는 모집단을 파악하려고 하기 보다는
모집단을 대변하는 표본을 가지고 모집단을 추론하는 방법을 택했다.
- 모집단
- 관심의 대상이 되는 모든 개체의 관측값이나 측정값의 집합
- 표본
- 모집단에서 실제로 추출한 관측값이나 측정값
- 모수
- 모집단의 특성을 나타내는 값
- 그리스, 로마자로 표시하며
- 평균은 µ [뮤]
- 표준편차는 σ [시그마]
- 통계량
- 표본에서 게산한 특성
- 알파벳으로 표시
- 평균은 X̄[x바]
- 표준편차 s
- 가설수립
- 가설검정
- 오류
- 통계 결과 해석
가설검정 :
어떤 모수의 값 또는 확률 분포에 대해 가설을 세우고 가설이 맞다고 주장해도 이상이 없는지 표본 데이터의 통계적 확률에 의해 결정하는 과정
- 가설검정 단계
- 가설 수립
- 유의 수준 설정 [증거의 기준 설정]
- 검정통계량 [객관적인 증거]
- 결과판정
- 영가설 [H0]: 두 모수에 대한 값이 같다고 할 때
- 기존에 받아들이던 가설
- 가설은 0이다 -> 없다 [틀리다]
- 대립가설 [H1]: 귀무가설이 채택되지 않았을 때의 가설
- 표본을 통해 입증하고자 하는 새로운 가설
- 귀무가설로 지정되지 않은 모든 경우
- 가설은 0이 아니다 -> 있다 [맞다]
오류
일반적으로 95%의 객관적인 증거를 통해 파악하는 과정을 통해 결과를 냈을때 결과가 틀린 경우
제 1종오류 -> 영가설 진실에 대해 대립가설을 선택했을 경우
제 2종오류 -> 대립가설 진실에 대해 영가설을 선택했을 경우
통계 결과 해석
유의확률 P와 유의수준 알파를 비교하여 영가설과 대립가설을 선택하는 과정
P<0.05 이하 기준이면 새로운 대립가설을 선택
P<알파 =0.05 -> H1선택
P>=알파=0.05 -> H0선택
유의수준은 일반적으로 0.05를 사용하지만 통계의 정확성을 높이거나 낮추고 싶을때 수정 가능하다.
T-검정
그룹핑을 통해 그룹을 만들 경우 검정 -> 두 집단의 평균을 비교하는 통계적 검정 방법
가설
영가설 : 집단 간의 평균 차이는 없다.
대립가설: 집단 간의 평균 차이는 있다.
- 영향을 주는 변수가
- 범주형 자료
- 영향을 받는 변수가
- 범주형 자료 -> 카이제곱 검정
- 연속형 자료 -> T-검정, 분산분석
- 영향을 받는 변수가
- 연속형 자료
- 영향을 받는 변수가
- 연속형 자료 -> 회귀분석
- 범주형 자료 -> 로지스틱 회귀분석
- 영향을 받는 변수가
- 범주형 자료
T-검정과 ANOVA 성립 조건
- 표본이 정규 분포를 그려야 한다. (정규성 충족)
- 2개 이상의 집단을 비교하기 위해선, 각 집단의 표준 편차가 서로 같아야 한다. (등분산성 충족)
- 표본은 독립적이어야 하며, 서로 영향을 미치지 않아야 한다.
728x90
반응형
'Computer Engineering > Big Data Analytics Using Python' 카테고리의 다른 글
[빅데이터분석 실습] 스몰데이터 통계 Part.1 (0) | 2021.05.11 |
---|---|
[빅데이터 분석 프로젝트] 마크다운으로 타이타닉 탑승객의 생존률 보고서 작성하기 -Part 2 (0) | 2021.04.19 |
[빅데이터 분석 프로젝트] 마크다운으로 팁 데이터 분석 보고서 작성하기 -Part 2 (0) | 2021.04.19 |
[빅데이터 분석] 10minutes pandas (1) (0) | 2021.04.17 |
[빅데이터 분석] 6장. 데이터 탐색 (0) | 2021.04.13 |