반응형
3과목. 데이터 분석
1장. 데이터 분석 개요
- 데이터 분석 기법의 이해
2장. R 프로그래밍 기초
- R 소개
- R 기초
- 입력과 출력
- 데이터 구조와 데이터 프레임
- 데이터 변형
3장. 데이터 마트
- 데이터 변경 및 요약
- 데이터 가공
- 기초 분석 및 데이터 관리
4장. 통계분석
- 통계분석의 이해
- 기초 통계 분석
- 회귀분석
- 시계열 분석
- 다차원 척도법
- 주성분분석
5장. 정형 데이터 마이닝
- 데이터 마이닝의 개요
- 분류분석
- 앙상블분석
- 인공신경망분석
- 군집분석
- 연관분석
1장. 데이터 분석 개요
- 데이터 분석 기법의 이해
- 데이터 처리 과정
- 분석 데이터 : 데이터웨어하우스 (DW), 데이터마트 (DM)
- +) 기존 운영시스템에서 가져오거나 운영데이터저장소(ODS)에서 정제된 데이터를 가져와 DW의 데이터와 결합
- 시각화 기법
- 공간분석
- 탐색적 자료분석 (EDA)
- 저항성의 강조
- 전차 계산
- 자료변수의 재표현
- 그래프를 통한 현시성
- 통계분석
- 데이터 마이닝
- 기계학습
- 인공신경망
- 의사결정나무
- 클러스터링
- SVM
- 패턴인식
- 연관규칙
- 장바구니분석
- 기계학습
- 데이터 처리 과정
2장. R 프로그래밍 기초
- R 소개
- 탄생 : 데이터마이닝과 그래프를 위한 언어
- 비교 : 다른 통계분석 도구에 비해 오픈소스라는 장점과 가볍다는 특징
- 특징 : 객체지향언어이면서 함수형 언어라는 특징을 가진 언어이면서, 시스템 데이터 저장 방식으로 동작하는 오픈소스 프로그램
- R 기초
- 기능
- 스크립트
- 패키지
- 배치 실행
- 변수
- 통계 계산 함수
- 함수의 선언
- 입력과 출력
- 데이터 입력과 출력
- 부동소수점 표현은 7자리가 기본으로 option()과 digit="숫자"를 이용해 자릿수 변경
- 파일 저장 멸령어 : cat("저장할 문자열", file="파일명")
- 슬래시 또는 이중 역슬래시로 파일 경로 지정
- 외부 파일 입력과 출력
- 고정자리 변수 파일
- 구분자 변수 파일
- csv 파일 읽기
- csv 파일 출력
- 웹 페이지에서 데이터 읽기
- 파일 다운로드
- ftp에서 파일 다운로드
- html에서 테이블
- 데이터 입력과 출력
- 데이터 구조와 데이터 프레임
- 데이터 구조의 정의
- 원소 자료형 - 벡터는 동질적, 리스트는 이질적, 데이터 프레임은 이질적
- 원소를 위치로 인덱싱, 인덱싱으로 여러 개 원소로 구성된 하위 데이터 생성, 원소들에 이름 부여 가능
- 단일값, 행렬 : 원소가 하나인 벡터로 인식/처리
- 배열 : 3원소가 하나인 벡터로 인식/처리
- 요인 : 유일값이 요인 수준으로 구성된 벡터 (범주형 변수, 집단 분류)
- 리스트 다루기
- 리스트 원소 선택 : L[[n]], L[["name"]], L$name
- 행렬 다루기
- 행렬 설정 : dim(vec) <- c(2,3)
- 행과 열 이름 붙이기
- rownames(mtrx) <- c("lowname1", "lowname2", ---)
- colnames(mtrx) <- c("colname1", "colname2", ---)
- 데이터 구조 변환
- 벡터 -> 리스트, 행렬 -> 리스트, 데이터 프레임 -> 리스트
- as.list(vec)
- as.list(mat)
- as.list(dfm)
- 벡터 -> 행렬, 리스트 -> 행렬, 데이터 프레임 -> 행렬
- cbind(vec) or as.matrix(vec) / rbind(vec) / matrix(n,m)
- as.matrix(lst) / asmatrix(rbind(lst)) / matrix(lst, n, m)
- as.matrix(dfm)
- 행렬 -> 벡터, 리스트 -> 벡터, 데이터 프레임 -> 벡터
- as.vector(mat)
- ulist(lst)
- dfm[[1]] or fm[,1] / dfm[1,]
- 벡터 -> 리스트, 행렬 -> 리스트, 데이터 프레임 -> 리스트
- 집단으로 분할하기
- 벡터 : split(vec, fac)
- 데이터프레임 : split(dfm, fac)
- 함수 적용하기
- 벡터 : apply(mtr, 1, func), apply(mtr, 2, func)
- 리스트 : lapply(lst, func), sapply(lst, func)
- 데이터프레임 : lapply(dfm, func), sapply(dfm, func), apply(dfm, 1or2, func)
- 집단별로 함수 적용하기
- tapply(vec, fac, func)
- by(dfm, fac, func)
- 병렬 벡터들과 리스트들에 함수 적용하기
- 벡터 : mapply(func, vec1, vec2, vec3, ---)
- 리스트 : mapply(func, lst1, lst2, lst3,---)
- 문자열 다루기
- 문자열 길이 : nchar("문자열")
- 벡터의 길이 : length(vec)
- 문자열 연결하기 : paste("단어", "문장", scalar)
- 하위 문자열 추출하기 : substr("문자열", 시작번호, 끝번호)
- 구분자로 문자열 추출하기 : strsplit("문자열", 구분자)
- 문자열 대체하기 : sub("대상문자열", "변경문자열", s), gsub("대상문자열", "변경문자열", s)
- 날짜 다루기
- 문자열 -> 날짜
- as.Date("2014-12-25")
- as.Date("12/25/2014", format="%m/%d/%Y")
- 날짜 -> 문자열
- format(Sys.Date(), format = "%m/%d/%Y)"
- format 문자열
- %b : ("Jan")
- %B : ("January")
- %d : ("31")
- %m: ("02")
- %y : ("14")
- %Y : ("2014")
- 문자열 -> 날짜
- 데이터 구조의 정의
- 데이터 변형
3장. 데이터 마트
- 데이터 변경 및 요약
- 데이터 가공
- 기초 분석 및 데이터 관리
4장. 통계분석
- 통계분석의 이해
- 기초 통계 분석
- 회귀분석
- 시계열 분석
- 다차원 척도법
- 주성분분석
5장. 정형 데이터 마이닝
- 데이터 마이닝의 개요
- 분류분석
- 앙상블분석
- 인공신경망분석
- 군집분석
- 연관분석
반응형
'Data Science > ADsP' 카테고리의 다른 글
ADsP 합격 (0) | 2024.03.16 |
---|---|
3과목. 데이터 분석 개념원리 (0) | 2024.02.21 |
2과목. 데이터 분석 기획 (0) | 2024.01.28 |
1과목. 데이터의 이해 (0) | 2024.01.28 |
Chapter 01. 데이터의 이해 (1) | 2023.10.07 |