본문 바로가기

Computer Engineering/Big Data Analytics Using Python

[빅데이터 분석] 스몰데이터 통계 Part.1

반응형

추론통계


빅데이터를 분석을 하면서 기술통계를 사용했다.

 

만약 스몰데이터로 분석을 하려면 어떻게 할까?

 

스몰데이터로 데이터 분석을 하려면 한계가 존재하는데

 

스몰데이터에서 한계는 모집단의 값을 모두 알 수가 없다는 것이다.

 

빅데이터 시대인 요즘은 모집단을 모두 파악하기 쉽지만 스몰데이터 시대에는 모집단을 파악하려고 하기 보다는

 

모집단을 대변하는 표본을 가지고 모집단을 추론하는 방법을 택했다.

 


 

  • 모집단
    • 관심의 대상이 되는 모든 개체의 관측값이나 측정값의 집합
  • 표본
    • 모집단에서 실제로 추출한 관측값이나 측정값
  • 모수
    • 모집단의 특성을 나타내는 값
    • 그리스, 로마자로 표시하며
    • 평균은 µ [뮤]
    • 표준편차는 σ [시그마]
  • 통계량
    • 표본에서 게산한 특성
    • 알파벳으로 표시
    • 평균은 X̄[x바]
    • 표준편차 s

 

  1. 가설수립
  2. 가설검정
  3. 오류
  4. 통계 결과 해석

 

가설검정 :

어떤 모수의 값 또는 확률 분포에 대해 가설을 세우고 가설이 맞다고 주장해도 이상이 없는지 표본 데이터의 통계적 확률에 의해 결정하는 과정

 

  • 가설검정 단계
    1. 가설 수립
    2. 유의 수준 설정 [증거의 기준 설정]
    3. 검정통계량 [객관적인 증거]
    4. 결과판정
  • 영가설 [H0]: 두 모수에 대한 값이 같다고 할 때
    • 기존에 받아들이던 가설
    • 가설은 0이다 -> 없다 [틀리다]
  • 대립가설 [H1]: 귀무가설이 채택되지 않았을 때의 가설
    • 표본을 통해 입증하고자 하는 새로운 가설 
    • 귀무가설로 지정되지 않은 모든 경우 
    • 가설은 0이 아니다 -> 있다 [맞다]

오류

일반적으로 95%의 객관적인 증거를 통해 파악하는 과정을 통해 결과를 냈을때 결과가 틀린 경우

 

제 1종오류 -> 영가설 진실에 대해 대립가설을 선택했을 경우

제 2종오류 -> 대립가설 진실에 대해 영가설을 선택했을 경우 

 

통계 결과 해석

유의확률 P와 유의수준 알파를 비교하여 영가설과 대립가설을 선택하는 과정

 

P<0.05 이하 기준이면 새로운 대립가설을 선택

 

P<알파 =0.05  -> H1선택

P>=알파=0.05 -> H0선택

 

유의수준은 일반적으로 0.05를 사용하지만 통계의 정확성을 높이거나 낮추고 싶을때 수정 가능하다.

 


T-검정

그룹핑을 통해 그룹을 만들 경우 검정 -> 두 집단의 평균을 비교하는 통계적 검정 방법

 

가설

영가설 : 집단 간의 평균 차이는 없다.

대립가설: 집단 간의 평균 차이는 있다.

  • 영향을 주는 변수가
    • 범주형 자료
      • 영향을 받는 변수가 
        • 범주형 자료 -> 카이제곱 검정
        • 연속형 자료 -> T-검정, 분산분석
    • 연속형 자료
      • 영향을 받는 변수가 
        • 연속형 자료 -> 회귀분석
        • 범주형 자료 -> 로지스틱 회귀분석

T-검정과 ANOVA 성립 조건

  • 표본이 정규 분포를 그려야 한다. (정규성 충족)
  • 2개 이상의 집단을 비교하기 위해선, 각 집단의 표준 편차가 서로 같아야 한다. (등분산성 충족)
  • 표본은 독립적이어야 하며, 서로 영향을 미치지 않아야 한다.

 

 

반응형