본문 바로가기

Computer Engineering/Big Data Analytics Using Python

[빅데이터 분석 프로젝트] 마크다운으로 타이타닉 탑승객의 생존률 보고서 작성하기 -Part 1

반응형

라이브러리 설치

  1. 판다스
  2. 맷플롯립
  3. 시본
  4. 넘파이
  5. 스태츠모델

 

  1. 로우 데이터를 가지고 데이터 전처리를 해줘야한다.
    일종의 필터링작업으로 이상데이터 클린징, Null값이나 0값을 대체하거나 제거한다.
  2. 행의 개수, 열의 개수 파악 -> 데이터 크기 파악
  3. 열의 데이터 종류파악 범주형 데이터와 연속형 데이터 파악
  4. 범주형 데이터(카테고리 데이터) EDA -> 빈도분석, 교차분석
  5. 연속형 데이터 -> 평균 중간값 분산
    나이는 범주형 분석 불가 -> 연속형 데이터

 

 

 

목표 : 생존여부 성별 승객구분 연령집단 교차표

 

            승객구분

연령집단

 

생존지도 -> 의사결정트리

반응형