본문 바로가기

반응형

Computer Engineering/Big Data Analytics Using Python

(17)
[빅데이터 분석 프로젝트] 마크다운으로 팁 데이터 분석 보고서 작성하기 -Part 1 팁 데이터 분석¶ 팁 데이터를 이용해 데이터 보기 실습¶ 데이터 분석 순서¶ 데이터 백업 데이터 보기 [파생변수 만들기] 데이터 클린징 범주형 분석 방법¶ 빈도분석 교차분석 In [4]: #라이브러리 불러오기 import pandas as pd import seaborn as sns In [5]: #데이터 불러오기 tips=sns.load_dataset("tips") #팁 데이터 In [6]: #데이터 보기 tips Out[6]: total_bill tip sex smoker day time size 0 16.99 1.01 Female No Sun Dinner 2 1 10.34 1.66 Male No Sun Dinner 3 2 21.01 3.50 Male No Sun Dinner 3 3 23.68 3.3..
[빅데이터 분석 프로젝트] 마크다운으로 타이타닉 탑승객의 생존률 보고서 작성하기 -Part 1 라이브러리 설치 판다스 맷플롯립 시본 넘파이 스태츠모델 로우 데이터를 가지고 데이터 전처리를 해줘야한다. 일종의 필터링작업으로 이상데이터 클린징, Null값이나 0값을 대체하거나 제거한다. 행의 개수, 열의 개수 파악 -> 데이터 크기 파악 열의 데이터 종류파악 범주형 데이터와 연속형 데이터 파악 범주형 데이터(카테고리 데이터) EDA -> 빈도분석, 교차분석 연속형 데이터 -> 평균 중간값 분산 나이는 범주형 분석 불가 -> 연속형 데이터 타이타닉 탑승객의 생존률 분석 보고서 작성¶ 데이터 준비¶ 1. 데이터의 이해¶ 분석할 데이터는 행과 열로 표현된 정형데이터로 행은 탑승객들의 정보, 열은 변수로 되어있다. 첫번째로 변수에 대해 분류를 한다. 여기서 변수에 대한 데이터 분류를 해야하는데, 티켓번호, ..
[빅데이터 분석] 5. 데이터 클린징 데이터 클린징의 이해 표본 편향 오류 품질 좋은 데이터를 확보 [데이터 품질 관리] 데이터 클린징 편향 없이 명확하고 깨끗한 데이터를 확보하는 작업 [데이터 분석 순서 : 백업 -> 보기 -> 결측데이터 처리] 결측 데이터 결측 데이터 확인 결측 데이터 대체/제거 [평균 대체법] 결측 데이터 반영 확인 이상 데이터 이상 데이터 확인 이상 데이터 대체/제거 이상 데이터 처리 확인 중복 데이터 중복 데이터 확인 중복 데이터 처리(유일한 1개 키만 남기고 나머지 중복 제거 DataFrame.drop_duplicates() 중복 데이터 처리 확인 결측 데이터 isnull() : 결측 데이터이면 True 값을 반환, 유효한 데이터면 False를 반환 notnull() :유효한데이터가존재하면 True를 반환, 누락..
[빅데이터 분석] 4. 데이터 보기 리스트 복합 데이터 유형 서로 다른 데이터 유형도 가능 튜플 복합 데이터 유형 서로 다른 데이터 유형도 가능 읽기 전용 리스트 딕셔너리 쌍으로 만든 테이블 형식 키는 문자열과 숫자로 값은 모든 유형과 임의의 파이썬 객체 데이터 프레임을 딕셔너리로 만들면 데이터프레임의 열을 하나씩 쌓아가는 형태 데이터 프레임을 리스트로 만들면 데이터프레임의 행을 하나씩 쌓아가는 형태 EDA 데이터 분석 이전에 데이터 전처리, 데이터 조작하는 과정 데이터 분석 순서 데이터 백업 -> 데이터 보기 열변수 행 데이터 인덱스 행번호 특정 조건 데이터 추출(행 데이터) 인덱스 읽기 행 번호 읽기 특정 행 범위 영역 선택 조건 이용 선택 특정 조건 선택 특정 조건 데이터 추출 (열 변수) 열 변수 추출 여러 개 열 변수 한 번에 추..
[빅데이터 분석] 3. 데이터 준비 우리가 생각하는 데이터는 어떤 데이터가 있을까? 스마트폰 메모리에 저장되어 있는 데이터는 사진, 동영상, 어플리케이션 등등으로 이루어져 있다. 이같은 데이터는 모두 같은 종류의 데이터일까? 데이터의 구분 정형 데이터 고정된 형식으로 저장된 데이터 엑셀 관계형 DB 반정형 데이터 고정된 형식은 아니지만 기본 구조가 있는 데이터 XML HTML JSON 비정형 데이터 문서 이미지 동영상 데이터 준비 외부 데이터를 불러와 정형 데이터 구조로 변환해주는 기능을 제공하는 판다스 라이브러리를 이용해 데이터를 불러오고 쓰도록 한다. 불러오기 read_(파일 포맷) 쓰기 to(파일 포맷) #pip로 python만 한정된 패키지 관리자고 conda 는 범용 설치 가능 데이터 백업 원 데이터를 백업하는 과정 raw 데이터..
[빅데이터 분석] 2. 파이썬 주요 문법 정리 자료형 1. Numbers 2. String 3. List 4. Tuple 5. Dictionary 함수 모듈 1. Numbers int_val1 = 1 print(int_val1) int_val2 = -10 print(int_var2) float_var1 = 15.20 print(float_var1) float_var2 = 70.2-1E12 print(float_var2) complex_var1 = 3.14j print(complex_var1) complex_var2 = 4.53e1-7j print(complex_var2) 2. Strings str = 'Hello World!' print(str) print(str[0]) print(str[2:5]) print(str[2:]) print(str *2)..
[빅데이터 분석] 1. 빅데이터 분석 개발환경 구축하기 구성 과정기존에 설치되어 있는 파이썬 제거아나콘다 배포판 설치주요 파이썬 라이브러리 설치설치 과정 중 Advanced 옵션에 path항목은 기존 파이썬이 설치되어 있는 경우 체크 해제하고 파이썬이 없을 경우 체크한다. 파이썬 3.6이 설치되어 있었지만 그대로 설치했다가 실행이 안되어 기존 파이썬 제거 후 다시 실행했다. 주피터 노트북아나콘다 배포판에 포함되어 있는 주로 사용할 IDE로 파이썬 코드를 웹에서 작성 가능한 웹 어플리케이션이다. 셀이 파란색일 때는 셀 선택모드, 초록색일 때는 코드 입력 모드이다. 단축키tab 해당하는 함수들이 리스트 된다.shift + tab 해당 함수의 설명Esc + h 단축키 확인가능한 단축키명령어? (shift + enter)파이썬 주요 라이브러리판다스맷플롯립시본넘파이사..
파이썬으로 빅데이터 분석하기

반응형