728x90
반응형
- 목차
- 데이터 분석 전반의 이해
- 히스토그램의 개념
- 평균, 분산, 표준편차
- 연속확률분포
- 가설 검정
- 표본 추출
- 가설 검정 - t검정
- 회귀분석
- 오차와 잔차
- 최고제곱법으로 회귀계수 추정
- SSE (Error Sum of Squares; 잔차 제곱의 합)와 MSE (Mean Squared Error; 잔차 제곱의 평균)
- 자유도
- SSR (Regression Sum of Sauares; 회귀 제곱의 합) MSR (Mean Squared Regression; 회귀 제곱의 평균)
- SSE와 MSE, SSR과 MSR
- 스케일링-표준화
목차
- R기초와 데이터 마트
- R기초
- 데이터 마트
- 결측값 처리와 이상값 검색
- 통계분석
- 통계학 개론
- 기초 통계분석
- 다변량 분석
- 시계열 예측
- 정형 데이터 마이닝
- 데이터마이닝 개요
- 분류분석
- 군집분석
- 연관분석
데이터 분석 전반의 이해
- Why
- 데이터 분석 필요한 이유
- Insight
- 통찰
- How
- 분석방법론
- Analysis + Statistics
- 데이터 분석 + 통계학
- Validation
- 검증 및 평가
데이터 분석
- 확률 (확률분포 분석)-> 가설 검정 (P-value, T검정) -> 회귀 분석 (변수 간 관계 분석)-> 분류 -> 예측 (분석 모델)
히스토그램의 개념
- 히스토그램 -> 확률과 분포
- 범주형 변수 키와 키에 대한 개수
- 피봇 -> 분포
- 특정 분포를 따르는 분포함수를 통해 미지의 빈 값을 예측 가능
- 이산확률분포 - 확률질량함수
- 연속적이지 않은 구간 척도, 명목척도
- 수집된 데이터가 셀 수 있는 특정 값들로 구성되거나 일정한 범위가 존재
- 연속확률분포 - 확률밀도함수
- 변수가 연속적인 숫자이거나 무한한 경우와 같이 셀 수 없는 경우
- 연속확률분포를 구간별로 나눈 경우 이상확률분포를 따른다.
평균, 분산, 표준편차
- 모집단의 분산 = 편차제곱의 합/모집단의 크기
- 분산 = 편차제곱의 평균
- 표준편차 = 분산의 루트
- 곡선의 중심에 평균이 위치
- 평균의 크기가 곡선의 높이를 결정
- 좌우 폭은 표준편차가 결정 (평균으로부터떨어진 정도)
- 분산은 데이터의 퍼진 정도를 나타냄 (거리는 제곱으로 구하기 때문에 편차제곱의 합을 모수로 나눈다.)
연속확률분포
- 정규분포=가우스분포
- 굉장히 많은 연속확률분포가 정규분포를 따른다.
- 정규분포를 따른다면
- 최댓값으로 평균을 구할 수 있다.
- 표준편차를 구해 퍼진 정도를 구할 수 있다.
- 편차제곱의 평균으로 분산을 구할 수 있다.
- Y축 = 우도 = 가능도
- Y값이 높을수록 일어날 가능성이 높고, 낮을수록 일어날 가능성이 낮다.
- 최대우도값 = 평균
- 최대우도값이 크다
- 분산이 작다
- 표준편차가 작다
- 뾰족하다
- 첨도값이 크다
- 최대우도값이 작다.
- 분산이 크다
- 표준편차가 크다
- 완만하다
- 첨도값이 작다.
- 최대우도값이 크다
- 왜도
- 확률분포의 비대칭 정도를 나타내는 측도
- 왜도값이 0이면 정규분포와 비슷함
- 평균, 중앙값, 최빈값이 모두 같다.
- 왜도값이 <0 -> 왼쪽으로 치우쳐 있다.
- 평균<중앙값<최빈값
- 왜도값이 >0 -> 오른쪽으로 치우쳐 있다.
- 최빈값<중앙값<평균
가설 검정
- 대립가설 = 대안가설 = '0'이 아님을 주장하는 대립가설
- 귀무가설 = 영가설 = 무로 돌아간다.
- 증명하기 -> 증거획득
- 유의수준 : 우연히 발생했다고 보기 어렵다고 판단하는 기준
- P-value : 어떤 사건이 우연히 발생할 확률로 통계분석결과값을 의미
- P값이 유의수준보다 작으면, 귀무가설을 기각하고 대립가설을 채택
- 유의수준이 0.05이고, P값이 0과 유의수준 사이라면 기각역에 포함되고, 귀무가설 기각하고 대립가설 채택
- 기각역 : 귀무가설을 기각시킬 수 있는 영역
- 제 1종 오류와 제 2종 오류
- 1종 오류
- 귀무가설H0이 사실인데 틀렸다고 결정하는 오류 -> 잘못된 범인을 선택하는 경우
- 용의자가 범인이 아니어서 (귀무가설H0가 사실)이어서 귀무가설을 채택해야하는데 기각한 경우
- 2종 오류
- 귀무가설H0가 거짓인데 귀무가설이 옳다고 결정하는 오류
- 용의자가 범인이 맞아서(귀무가설H0가 거짓)이어서 귀무가설을 기각해야하는데 채택한 경우
- 1종 오류
표본 추출
- 모집단의 전수조사가 어렵기 때문에, 표본을 추출해 표본조사 실시
- 표본 집단에 대한 표본 조사를 통해 구한 표본평균과 표본분산을 이용해 모평균, 모분산 추정
- 추출한 표본이 잘못된 경우 = 표집이 잘못된 경우 = 표본집단의 값이 실제값과 다른 경우
= 표본이 모집단의 대표성을 나타내지 못하는 경우 = 표본의 신뢰도가 떨어짐 - 대표성을 검증하는 과정이 필요
- 추출한 표본이 잘못된 경우 = 표집이 잘못된 경우 = 표본집단의 값이 실제값과 다른 경우
가설 검정 -t검정
- 일 표본 단측 t-검정
- 모수에 대한 검증 시, 모수값이 한쪽으로의 방향성을 갖게 되는 경우 수행되는 검정 방법
- 표본추출
- 티 검정 수행
- 대립가설의 파라미터를 이용해 수행한 결과 t = 검정 통계량은 (표본평균-모평균) 을 표본의 표준편차로 나눈값
- 수행한 결과 p값이 유의수준 0.05보다 작으면 귀무가설 기각
- 자유도 : 표본의 개수 -1
- 모수에 대한 검증 시, 모수값이 한쪽으로의 방향성을 갖게 되는 경우 수행되는 검정 방법
회귀분석
- 인과관계를 밝히는 분석에 회귀라는 용어를 사용한 이유
- 부모와 자녀 키 사이의 연관관계 분석
- 선형적인 관계가 있고 전체 키 평균으로 돌아가려는 경향이 있다는 가설을 세우고 이러한 가설을 분석하는 방법이 회귀분석
- 회귀 분석 조건
- 인과관계가 있어야 회귀 분석
- x축 증가하면서 y축 값도 변하는 데이터의 추세를 따라 추세선을 그린다면, 이러한 추세선에 근처에 실제값들이 모인다
- 최소제곱법으로 거리를 구해서 보면, 추세선 근처로 돌아가려는 경향을 띈다
- 이러한 추세선을 그릴 수 있으면, 미지의 값도 예측(추정)이 가능하다.
오차와 잔차
- 오차 : 모집단 회귀식의 예측값과 모집단의 실제값의 편차
- 실제 차이
- 잔차 : 표본집단 회귀식의 예측값과 표본집단의 실제값의 편차 = 관측값-예측값
- 잔차가 0에 가까우면, 회귀추세선이 예측률이 굉장히 높음
- 잔차는 0에 가깝지만, 오차는 그렇지 않을 경우 표집이 잘못된 경우다. (대표성이 떨어짐)
- 수직거리 사용해야한다. (회귀선까지 x축으로 떨어진 거리)
- 잔차 제곱합을 최소화하는 회귀추세선을 그리면, 해당 추세선은 예측력이 높음
- 편차 : 평균과 비교해 차이난 거리
최소제곱법으로 회귀계수 추정
- 회귀분석 기본 알고리즘
- 최소제곱법을 통해 파라미터를 추정하고, 추정된 파라미터를 통해 추세선을 그려 값을 예측하는 것
- 오차를 제곱해 더한 값을 최소화하는 것이 목표
- 잔차의 제곱합이 최소가 되면 가장 합리적인 추세선
- 평균 기준으로 차이 : 편차
- 회귀선을 기준으로 차이 : 잔차
SSE (Error Sum of Squares; 잔차 제곱의 합)
- 잔차가 작다 = 관측값과 예측값의 차이가 작다 = 회귀식과 실제값의 편차가 작다
- 잔차 제곱의 합인 SSE가 작다
- SSE가 작다면 예측을 잘한 모델
- 회귀선을 잘 그린 모델
- 잔차제곱법을 이용해 회귀추세선을 그릴 수 있는 방법
MSE (Mean Squared Error; 잔차 제곱의 평균)
- 잔차가 작다
- 잔차 제곱의 평균인 MSE가 작다
- MSE가 작다면 예측을 잘한 모델
- 회귀선을 잘 그린 모델
- MSE는 SSE의 표준화
- 회귀식으로 설명 불가능 -> 예측값과 실제값의 차이가 존재하므로,
- 대부분 SSE>MSE 이렇지만 SSE = MSE일 경우, SSE가 0이라는 뜻 -> 잔차 제곱의 합이 0 = 잔차가 0 = 회귀식과 완벽히 일치
- 자유도는 n-2으로, MSE = SSE/ (n-2)
자유도 : 평균은 합을 표본의 개수로 나누는데, 이 의미있는 데이터의 개수
- 분산 계산 (평균 계산)에서 자유도는 n-1
- 이유
- 편향 추정
- 모집단에서 추출된 표본집단은 평균에 가까울 확률이 높으므로, 모집단보다 표준편차가 작다 = 첨도가 높은 분포가 나온다.
- 불편 추정 = 편의 없는 추정 = 모수와 가깝게 만들어야 한다.
- 전체 표본의 수로 나누지 않고, 제약조건의 수를 뺀 나머지 표본의 수로만 구하는 이유
- 추정량의 기댓값과 모수를 뺀것으로 잔차개념과 비슷하다. = 편의 추정
- 편향 추정
- 이유
- MSE 회귀제곱평균에서 자유도는 n-2
- 이유
- 분산 계산은 편차가 중간점 제외 평균을 구한다. = 점추정 = 점에서 차이를 구하는 개념이므로
- 평균만 의미를 갖지 않으므로 n-1
- 회귀선 기준 편차 평균 구할 때 n-2= 기준점이 2개 = 선과 선을 연결하는 직선 개념이므로 = x축 지점과 회귀선의 점 위치
- 이유
- SSR (Regression Sum of Sauares; 회귀 제곱의 합)
- 예측값과 모수전체의 평균 (그래프에서 Y값들의 평균)의 차이 제곱의 합
= 모수 평균과 회귀값의 차이 제곱의 합
= 회귀식으로 설명 가능 - 잔차를 가지고 비교하는 게 아닌, 회귀추세선을 가지고 비교한다.
=회귀추세선과 모수 전체평균을 비교
=회귀추세선과 모수 전체평균의 차이 = SSR - SST = SSE + SSR
- SSE가 0로 가까워진다면
- 즉, 잔차가 0이 되면 SST =SSR
- 모든 잔차가 회귀선안에 존재한다는 뜻
- 회귀선이 굉장히 예측을 잘한다.
- X값 (=독립변수 값)에 따라 회귀 직선 기울기 (=SSR의 값)을 알면 Y값 (=종속변수의 값)의 변하는 정도를 알 수 있다.
- 예측값과 모수 전체 평균과의 차이
= 평균과 회귀 추세선 차이
= 모형이 설명하는 부분
= SSR
- 예측값과 모수전체의 평균 (그래프에서 Y값들의 평균)의 차이 제곱의 합
- MSR (Mean Squared Regression; 회귀 제곱의 평균)
- 예측값과 모수 전체의 평균 (그래프에서 Y값들의 평균)의 차이 제곱의 평균
- 모수 평균과 회귀값 차이 제곱의 평균
- SSR은 합, MSR은 평균
- MSR의 자유도는 k, SSR의 기준은 평균점 하나이므로
- SST의 자유도 n-1 = SSR 자유도 1 + SSE 자유도 n-2
- 예측값과 모수 전체 평균의 차이
=평균과 회귀추세선의 차이
=모형이 설명하는 부분
=SSR
=제외조건이 평균점 하나이므로 자유도는 k
=표본 전체를 나타냄
=일차함수에서는 독립변수 한개가 된다.
SSE와 MSE, SSR과 MSR
- SST (총제곱합) 전체 설명 필요
- SSE (오차제곱합) 모형이 설명하지 못하는 부분
- SSR (회귀제곱합) 모형이 설명하는 부분
- SSR이 SST만큼 그면 = SSE가 작다면 = 1-SSE가 크면
= R^2이 1에 가까워진다면 = 예측력이 좋은 모델 (0과 1사이값을 가지므로)
- SSR이 SST만큼 그면 = SSE가 작다면 = 1-SSE가 크면
- SST = SSE + SSR (제곱의 합)
MSE +MSR (평균의 개념)- MSE (평균제곱오차 평균) 이 작아야 예측력이 좋다 = 모형평가의 지표
- MSE가 작으면 관측값의 스케일이 작다
- 스케일링
- 관측값의 단위를 조정
- 관측값의 스케일
- 관측값들의 데이터 분포나 범위를 동일하게 조정
- 스케일링
- R^2 = SSR / SST = 1-SSE / SST = 1-SSE = SSE+SSR = 회귀모형에 의해 설명되는 변동 / 총 변동
- SSR의 자유도는 n-1 (SSR구할 때 기준이 평균점 하나)
- MSR의 자유도는 k (표본 개수)
- F 분포값 = MSR/MSE
- 모델로 설명되는 변동이 오차의 변동에 비해 얼마나 큰지를 보여줍니다.
- 간단히 말해서, 모델이 데이터를 설명하는 정도와 모델로 설명되지 않는 오차 사이의 상대적인 크기를 비교하는 것입니다. F 분포값이 클수록 모델이 데이터를 잘 설명한다는 것을 나타내며, 통계적으로 유의미한 모델을 가리킵니다.
- 따라서 F 분포값은 분산 분석 결과를 해석하는 데 사용되며, 모델의 유효성을 판단하는 데 중요한 지표 중 하나입니다.
- 수정된 결정계수
- 결정계수는 SSR/SST로 계산
- SSR = 회귀제곱의 평균
- SST = 총 편차 제곱 합 = 총 변동을 의미 = 모든 데이터 값이 평균에서 얼마나 떨어져있는지 나타냄
- 독립변수가 많아지면 커진다.
- 종속변수에 영향을 주지 않아도 독립변수가 단순히 많아지면 결정계수가 커진다.
- 분모에 p(독립변수의 수)를 위치시켜 결정계수 상쇄
- 보통의 결정계수보다 작게 계산된다.
- 결정계수는 SSR/SST로 계산
스케일링 표준화
- 한 쪽에 모여있는 값들을 퍼트린다.
P값의 의미
- 회귀분석에서의 P값은 우연히 발생할 확률이 R²보다 크거나 같을 확률
- 0.05 미만이면 R² 예측값의 신뢰도가 높다 = 신뢰할 수 있는 모델
R²의 의미
- R²는 회귀 분석에서 사용되는 지표로, 모델이 종속 변수의 변동성을 얼마나 설명하는지를 나타내는 값입니다. 일반적으로 회귀 분석에서 사용되는 모델의 적합도를 나타내는 통계량 중 하나입니다.
- R²는 종속 변수의 총 변동 중에서 모델로 설명되는 변동이 차지하는 비율을 나타내므로, 모델이 종속 변수를 얼마나 잘 설명하는지를 평가하는 데 사용됩니다. R² 값은 0부터 1까지의 범위를 가지며, 일반적으로 높은 R² 값일수록 모델이 종속 변수를 더 잘 설명한다고 해석됩니다.
- 수식적으로는 다음과 같이 계산됩니다
- R²
- R²는 결정 계수(coefficient of determination)를 나타냅니다.
- SSE는 잔차의 제곱합(sum of squared errors)을 나타냅니다. 잔차는 실제 관측값과 모델의 예측값 간의 차이를 의미합니다.
- SST는 총 편차 제곱합(total sum of squares)을 나타냅니다. 총 편차 제곱합은 종속 변수의 총 변동을 나타냅니다.
따라서 R²는 모델로 설명되는 변동이 종속 변수의 총 변동 중 얼마나 많은 비율을 차지하는지를 나타내므로, 모델의 설명력을 평가하는 중요한 지표 중 하나
728x90
반응형
'Data Science > ADsP' 카테고리의 다른 글
ADsP 합격 (0) | 2024.03.16 |
---|---|
3과목. 데이터 분석 (1) | 2024.01.30 |
2과목. 데이터 분석 기획 (0) | 2024.01.28 |
1과목. 데이터의 이해 (0) | 2024.01.28 |
Chapter 01. 데이터의 이해 (1) | 2023.10.07 |