본문 바로가기

Data Science/ADsP

3과목. 데이터 분석 개념원리

728x90
반응형

 

  1. 목차
  2. 데이터 분석 전반의 이해

 

  1. 히스토그램의 개념
  2. 평균, 분산, 표준편차
  3. 연속확률분포

 

  1. 가설 검정
  2. 표본 추출
  3. 가설 검정 - t검정

 

  1. 회귀분석
  2. 오차와 잔차
  3. 최고제곱법으로 회귀계수 추정
  4. SSE (Error Sum of Squares; 잔차 제곱의 합)와 MSE (Mean Squared Error; 잔차 제곱의 평균)
  5. 자유도
  6. SSR (Regression Sum of Sauares; 회귀 제곱의 합) MSR (Mean Squared Regression; 회귀 제곱의 평균)
  7. SSE와 MSE, SSR과 MSR
  8. 스케일링-표준화

목차

  1. R기초와 데이터 마트
    1. R기초
    2. 데이터 마트
    3. 결측값 처리와 이상값 검색
  2. 통계분석
    1. 통계학 개론
    2. 기초 통계분석
    3. 다변량 분석
    4. 시계열 예측
  3. 정형 데이터 마이닝
    1. 데이터마이닝 개요
    2. 분류분석
    3. 군집분석
    4. 연관분석

데이터 분석 전반의 이해

  1. Why
    • 데이터 분석 필요한 이유
  2. Insight
    • 통찰
  3. How
    • 분석방법론
  4. Analysis + Statistics
    • 데이터 분석 + 통계학
  5. Validation
    • 검증 및 평가

 

데이터 분석

  • 확률 (확률분포 분석)-> 가설 검정 (P-value, T검정) -> 회귀 분석 (변수 간 관계 분석)-> 분류 -> 예측 (분석 모델)

 


히스토그램의 개념

  • 히스토그램 -> 확률과 분포
  • 범주형 변수 키와 키에 대한 개수
    • 피봇 -> 분포
    • 특정 분포를 따르는 분포함수를 통해 미지의 빈 값을 예측 가능 
  • 이산확률분포 - 확률질량함수
    • 연속적이지 않은 구간 척도, 명목척도
    • 수집된 데이터가 셀 수 있는 특정 값들로 구성되거나 일정한 범위가 존재
  • 연속확률분포 - 확률밀도함수
    • 변수가 연속적인 숫자이거나 무한한 경우와 같이 셀 수 없는 경우
    • 연속확률분포를 구간별로 나눈 경우 이상확률분포를 따른다.

평균, 분산, 표준편차

  • 모집단의 분산 = 편차제곱의 합/모집단의 크기
  • 분산 = 편차제곱의 평균
  • 표준편차 = 분산의 루트
    • 곡선의 중심에 평균이 위치
    • 평균의 크기가 곡선의 높이를 결정
    • 좌우 폭은 표준편차가 결정 (평균으로부터떨어진 정도)
    •  분산은 데이터의 퍼진 정도를 나타냄 (거리는 제곱으로 구하기 때문에 편차제곱의 합을 모수로 나눈다.)

연속확률분포 

  • 정규분포=가우스분포
    • 굉장히 많은 연속확률분포가 정규분포를 따른다.
    • 정규분포를 따른다면
      • 최댓값으로 평균을 구할 수 있다.
      • 표준편차를 구해 퍼진 정도를 구할 수 있다.
      • 편차제곱의 평균으로 분산을 구할 수 있다.
      • Y축 = 우도 = 가능도
        • Y값이 높을수록 일어날 가능성이 높고, 낮을수록 일어날 가능성이 낮다.
    • 최대우도값 = 평균
      • 최대우도값이 크다
        • 분산이 작다
        • 표준편차가 작다
        • 뾰족하다
        • 첨도값이 크다
      • 최대우도값이 작다.
        • 분산이 크다
        • 표준편차가 크다
        • 완만하다
        • 첨도값이 작다.
    • 왜도
      • 확률분포의 비대칭 정도를 나타내는 측도
      • 왜도값이 0이면 정규분포와 비슷함
        • 평균, 중앙값, 최빈값이 모두 같다.
      • 왜도값이 <0 -> 왼쪽으로 치우쳐 있다.
        • 평균<중앙값<최빈값
      • 왜도값이 >0 -> 오른쪽으로 치우쳐 있다.
        • 최빈값<중앙값<평균

가설 검정

  • 대립가설 = 대안가설 = '0'이 아님을 주장하는 대립가설
  • 귀무가설 = 영가설 = 무로 돌아간다.
  • 증명하기 -> 증거획득
  • 유의수준 : 우연히 발생했다고 보기 어렵다고 판단하는 기준
  • P-value : 어떤 사건이 우연히 발생할 확률로 통계분석결과값을 의미
    • P값이 유의수준보다 작으면, 귀무가설을 기각하고 대립가설을 채택
    • 유의수준이 0.05이고, P값이 0과 유의수준 사이라면 기각역에 포함되고, 귀무가설 기각하고 대립가설 채택
      • 기각역 : 귀무가설을 기각시킬 수 있는 영역
  • 제 1종 오류와 제 2종 오류
    • 1종 오류
      • 귀무가설H0이 사실인데 틀렸다고 결정하는 오류 -> 잘못된 범인을 선택하는 경우
      • 용의자가 범인이 아니어서 (귀무가설H0가 사실)이어서 귀무가설을 채택해야하는데 기각한 경우
    • 2종 오류
      • 귀무가설H0가 거짓인데 귀무가설이 옳다고 결정하는 오류 
      • 용의자가 범인이 맞아서(귀무가설H0가 거짓)이어서 귀무가설을 기각해야하는데 채택한 경우

표본 추출

  • 모집단의 전수조사가 어렵기 때문에, 표본을 추출해 표본조사 실시
  • 표본 집단에 대한 표본 조사를 통해 구한 표본평균과 표본분산을 이용해 모평균, 모분산 추정
    • 추출한 표본이 잘못된 경우 = 표집이 잘못된 경우 = 표본집단의 값이 실제값과 다른 경우
      = 표본이 모집단의 대표성을 나타내지 못하는 경우 = 표본의 신뢰도가 떨어짐
    • 대표성을 검증하는 과정이 필요

가설 검정 -t검정

  • 일 표본 단측 t-검정
    • 모수에 대한 검증 시, 모수값이 한쪽으로의 방향성을 갖게 되는 경우 수행되는 검정 방법
      • 표본추출
      • 티 검정 수행
      • 대립가설의 파라미터를 이용해 수행한 결과 t = 검정 통계량은 (표본평균-모평균) 을 표본의 표준편차로 나눈값
      • 수행한 결과 p값이 유의수준 0.05보다 작으면 귀무가설 기각
      • 자유도 : 표본의 개수 -1

회귀분석

  • 인과관계를 밝히는 분석에 회귀라는 용어를 사용한 이유
    • 부모와 자녀 키 사이의 연관관계 분석
    • 선형적인 관계가 있고 전체 키 평균으로 돌아가려는 경향이 있다는 가설을 세우고 이러한 가설을 분석하는 방법이 회귀분석
  • 회귀 분석 조건
    • 인과관계가 있어야 회귀 분석
    • x축 증가하면서 y축 값도 변하는 데이터의 추세를 따라 추세선을 그린다면, 이러한 추세선에 근처에 실제값들이 모인다
      • 최소제곱법으로 거리를 구해서 보면, 추세선 근처로 돌아가려는 경향을 띈다
      • 이러한 추세선을 그릴 수 있으면, 미지의 값도 예측(추정)이 가능하다.

오차와 잔차

  • 오차 : 모집단 회귀식의 예측값과 모집단의 실제값의 편차
    • 실제 차이
  • 잔차 : 표본집단 회귀식의 예측값과 표본집단의 실제값의 편차 = 관측값-예측값
    • 잔차가 0에 가까우면, 회귀추세선이 예측률이 굉장히 높음
    • 잔차는 0에 가깝지만, 오차는 그렇지 않을 경우 표집이 잘못된 경우다. (대표성이 떨어짐)
    • 수직거리 사용해야한다. (회귀선까지 x축으로 떨어진 거리)
    • 잔차 제곱합을 최소화하는 회귀추세선을 그리면, 해당 추세선은 예측력이 높음
  • 편차 : 평균과 비교해 차이난 거리

최소제곱법으로 회귀계수 추정

  • 회귀분석 기본 알고리즘
    • 최소제곱법을 통해 파라미터를 추정하고, 추정된 파라미터를 통해 추세선을 그려 값을 예측하는 것
    • 오차를 제곱해 더한 값을 최소화하는 것이 목표
      • 잔차의 제곱합이 최소가 되면 가장 합리적인 추세선
      • 평균 기준으로 차이 :  편차
      • 회귀선을 기준으로 차이 : 잔차

SSE (Error Sum of Squares; 잔차 제곱의 합)

  • 잔차가 작다 = 관측값과 예측값의 차이가 작다 = 회귀식과 실제값의 편차가 작다
  • 잔차 제곱의 합인 SSE가 작다
  • SSE가 작다면 예측을 잘한 모델
  • 회귀선을 잘 그린 모델
  • 잔차제곱법을 이용해 회귀추세선을 그릴 수 있는 방법

 

MSE (Mean Squared Error; 잔차 제곱의 평균)

  • 잔차가 작다
  • 잔차 제곱의 평균인 MSE가 작다
  • MSE가 작다면 예측을 잘한 모델
  • 회귀선을 잘 그린 모델
  • MSE는 SSE의 표준화
  • 회귀식으로 설명 불가능 -> 예측값과 실제값의 차이가 존재하므로, 
  • 대부분 SSE>MSE 이렇지만 SSE = MSE일 경우, SSE가 0이라는 뜻 -> 잔차 제곱의 합이 0 = 잔차가 0 = 회귀식과 완벽히 일치
  • 자유도는 n-2으로, MSE = SSE/ (n-2)

자유도 : 평균은 합을 표본의 개수로 나누는데, 이 의미있는 데이터의 개수

  • 분산 계산 (평균 계산)에서 자유도는 n-1
    • 이유
      • 편향 추정
        • 모집단에서 추출된 표본집단은 평균에 가까울 확률이 높으므로, 모집단보다 표준편차가 작다 = 첨도가 높은 분포가 나온다.
      • 불편 추정 = 편의 없는 추정 = 모수와 가깝게 만들어야 한다.
        • 전체 표본의 수로 나누지 않고, 제약조건의 수를 뺀 나머지 표본의 수로만 구하는 이유
        • 추정량의 기댓값과 모수를 뺀것으로 잔차개념과 비슷하다. = 편의 추정
  • MSE 회귀제곱평균에서 자유도는 n-2
    • 이유
      • 분산 계산은 편차가 중간점 제외 평균을 구한다. = 점추정 = 점에서 차이를 구하는 개념이므로
      • 평균만 의미를 갖지 않으므로 n-1
      • 회귀선 기준 편차 평균 구할 때 n-2= 기준점이 2개 = 선과 선을 연결하는 직선 개념이므로 = x축 지점과 회귀선의 점 위치
  • SSR (Regression Sum of Sauares; 회귀 제곱의 합)
    • 예측값과 모수전체의 평균 (그래프에서 Y값들의 평균)의 차이 제곱의 합
      = 모수 평균과 회귀값의 차이 제곱의 합
      = 회귀식으로 설명 가능
    • 잔차를 가지고 비교하는 게 아닌, 회귀추세선을 가지고 비교한다.
      =회귀추세선과 모수 전체평균을 비교
      =회귀추세선과 모수 전체평균의 차이 = SSR
    • SST = SSE + SSR
      • SSE가 0로 가까워진다면
      • 즉, 잔차가 0이 되면 SST =SSR
      • 모든 잔차가 회귀선안에 존재한다는 뜻
      • 회귀선이 굉장히 예측을 잘한다.
    • X값 (=독립변수 값)에 따라 회귀 직선 기울기 (=SSR의 값)을 알면 Y값 (=종속변수의 값)의 변하는 정도를 알 수 있다.
    • 예측값과 모수 전체 평균과의 차이
      = 평균과 회귀 추세선 차이
      = 모형이 설명하는 부분
      = SSR
  • MSR (Mean Squared Regression; 회귀 제곱의 평균)
    • 예측값과 모수 전체의 평균 (그래프에서 Y값들의 평균)의 차이 제곱의 평균
    • 모수 평균과 회귀값 차이 제곱의 평균
    • SSR은 합, MSR은 평균
      • MSR의 자유도는 k, SSR의 기준은 평균점 하나이므로
      • SST의 자유도 n-1 = SSR 자유도 1 + SSE 자유도 n-2
      • 예측값과 모수 전체 평균의 차이
        =평균과 회귀추세선의 차이
        =모형이 설명하는 부분
        =SSR
        =제외조건이 평균점 하나이므로 자유도는 k
        =표본 전체를 나타냄
        =일차함수에서는 독립변수 한개가 된다.

SSE와 MSE, SSR과 MSR

  • SST (총제곱합) 전체 설명 필요
  • SSE (오차제곱합) 모형이 설명하지 못하는 부분
  • SSR (회귀제곱합) 모형이 설명하는 부분
    • SSR이 SST만큼 그면 = SSE가 작다면 = 1-SSE가 크면
      = R^2이 1에 가까워진다면 = 예측력이 좋은 모델 (0과 1사이값을 가지므로)
  • SST = SSE + SSR (제곱의 합)
    MSE +MSR (평균의 개념)
    • MSE (평균제곱오차 평균) 이 작아야 예측력이 좋다 = 모형평가의 지표
    • MSE가 작으면 관측값의 스케일이 작다
      • 스케일링
        • 관측값의 단위를 조정
        • 관측값의 스케일
        • 관측값들의 데이터 분포나 범위를 동일하게 조정
  • R^2 = SSR / SST = 1-SSE / SST = 1-SSE = SSE+SSR = 회귀모형에 의해 설명되는 변동 / 총 변동

  • SSR의 자유도는 n-1 (SSR구할 때 기준이 평균점 하나)
  • MSR의 자유도는 k (표본 개수)

  • F 분포값 = MSR/MSE
    • 모델로 설명되는 변동이 오차의 변동에 비해 얼마나 큰지를 보여줍니다.
    • 간단히 말해서, 모델이 데이터를 설명하는 정도와 모델로 설명되지 않는 오차 사이의 상대적인 크기를 비교하는 것입니다. F 분포값이 클수록 모델이 데이터를 잘 설명한다는 것을 나타내며, 통계적으로 유의미한 모델을 가리킵니다.
    • 따라서 F 분포값은 분산 분석 결과를 해석하는 데 사용되며, 모델의 유효성을 판단하는 데 중요한 지표 중 하나입니다.
  • 수정된 결정계수
    • 결정계수는 SSR/SST로 계산
      • SSR = 회귀제곱의 평균
      • SST = 총 편차 제곱 합 = 총 변동을 의미 = 모든 데이터 값이 평균에서 얼마나 떨어져있는지 나타냄
    • 독립변수가 많아지면 커진다.
    • 종속변수에 영향을 주지 않아도 독립변수가 단순히 많아지면 결정계수가 커진다.
    • 분모에 p(독립변수의 수)를 위치시켜 결정계수 상쇄
    • 보통의 결정계수보다 작게 계산된다.


스케일링 표준화

  • 한 쪽에 모여있는 값들을 퍼트린다.

P값의 의미

  • 회귀분석에서의 P값은 우연히 발생할 확률이 R²보다 크거나 같을 확률
  • 0.05 미만이면 R² 예측값의 신뢰도가 높다 = 신뢰할 수 있는 모델

R²의 의미

  • R²는 회귀 분석에서 사용되는 지표로, 모델이 종속 변수의 변동성을 얼마나 설명하는지를 나타내는 값입니다. 일반적으로 회귀 분석에서 사용되는 모델의 적합도를 나타내는 통계량 중 하나입니다.
  • R²는 종속 변수의 총 변동 중에서 모델로 설명되는 변동이 차지하는 비율을 나타내므로, 모델이 종속 변수를 얼마나 잘 설명하는지를 평가하는 데 사용됩니다. R² 값은 0부터 1까지의 범위를 가지며, 일반적으로 높은 R² 값일수록 모델이 종속 변수를 더 잘 설명한다고 해석됩니다.
  • 수식적으로는 다음과 같이 계산됩니다
  • 는 결정 계수(coefficient of determination)를 나타냅니다.
  • SSE는 잔차의 제곱합(sum of squared errors)을 나타냅니다. 잔차는 실제 관측값과 모델의 예측값 간의 차이를 의미합니다.
  • SST는 총 편차 제곱합(total sum of squares)을 나타냅니다. 총 편차 제곱합은 종속 변수의 총 변동을 나타냅니다.

따라서 R²는 모델로 설명되는 변동이 종속 변수의 총 변동 중 얼마나 많은 비율을 차지하는지를 나타내므로, 모델의 설명력을 평가하는 중요한 지표 중 하나

728x90
반응형

'Data Science > ADsP' 카테고리의 다른 글

ADsP 합격  (0) 2024.03.16
3과목. 데이터 분석  (1) 2024.01.30
2과목. 데이터 분석 기획  (0) 2024.01.28
1과목. 데이터의 이해  (0) 2024.01.28
Chapter 01. 데이터의 이해  (1) 2023.10.07