본문 바로가기

Data Science/ADsP

3과목. 데이터 분석

반응형

3과목. 데이터 분석

 

1장. 데이터 분석 개요

  1. 데이터 분석 기법의 이해

2장. R 프로그래밍 기초

  1. R 소개
  2. R 기초
  3. 입력과 출력
  4. 데이터 구조와 데이터 프레임
  5. 데이터 변형

3장. 데이터 마트

  1. 데이터 변경 및 요약
  2. 데이터 가공
  3. 기초 분석 및 데이터 관리

4장. 통계분석

  1. 통계분석의 이해
  2. 기초 통계 분석
  3. 회귀분석
  4. 시계열 분석
  5. 다차원 척도법
  6. 주성분분석

5장. 정형 데이터 마이닝

  1. 데이터 마이닝의 개요
  2. 분류분석
  3. 앙상블분석
  4. 인공신경망분석
  5. 군집분석
  6. 연관분석

 

1장. 데이터 분석 개요

  1. 데이터 분석 기법의 이해
    1. 데이터 처리 과정
      • 분석 데이터 : 데이터웨어하우스 (DW), 데이터마트 (DM)
      • +) 기존 운영시스템에서 가져오거나 운영데이터저장소(ODS)에서 정제된 데이터를 가져와 DW의 데이터와 결합
    2. 시각화 기법
    3. 공간분석
    4. 탐색적 자료분석 (EDA)
      • 저항성의 강조
      • 전차 계산
      • 자료변수의 재표현
      • 그래프를 통한 현시성
    5. 통계분석
    6. 데이터 마이닝
      • 기계학습
        • 인공신경망
        • 의사결정나무
        • 클러스터링
        • SVM
      • 패턴인식
        • 연관규칙
        • 장바구니분석

2장. R 프로그래밍 기초

  1. R 소개
    1. 탄생 : 데이터마이닝과 그래프를 위한 언어
    2. 비교 : 다른 통계분석 도구에 비해 오픈소스라는 장점과 가볍다는 특징
    3. 특징 : 객체지향언어이면서 함수형 언어라는 특징을 가진 언어이면서, 시스템 데이터 저장 방식으로 동작하는 오픈소스 프로그램
  2. R 기초
    1. 기능
    2. 스크립트
    3. 패키지
    4. 배치 실행
    5. 변수
    6. 통계 계산 함수
    7. 함수의 선언
  3. 입력과 출력
    1. 데이터 입력과 출력
      • 부동소수점 표현은 7자리가 기본으로 option()과 digit="숫자"를 이용해 자릿수 변경
      • 파일 저장 멸령어 : cat("저장할 문자열", file="파일명")
      • 슬래시 또는 이중 역슬래시로 파일 경로 지정
    2. 외부 파일 입력과 출력
      • 고정자리 변수 파일
      • 구분자 변수 파일
      • csv 파일 읽기
      • csv 파일 출력
    3. 웹 페이지에서 데이터 읽기
      • 파일 다운로드
      • ftp에서 파일 다운로드
      • html에서 테이블
  4. 데이터 구조와 데이터 프레임
    1. 데이터 구조의 정의
      • 원소 자료형 - 벡터는 동질적, 리스트는 이질적, 데이터 프레임은 이질적
      • 원소를 위치로 인덱싱, 인덱싱으로 여러 개 원소로 구성된 하위 데이터 생성, 원소들에 이름 부여 가능

      • 단일값, 행렬 : 원소가 하나인 벡터로 인식/처리
      • 배열 : 3원소가 하나인 벡터로 인식/처리
      • 요인 : 유일값이 요인 수준으로 구성된 벡터 (범주형 변수, 집단 분류)
    2. 리스트 다루기
      • 리스트 원소 선택 : L[[n]], L[["name"]], L$name
    3. 행렬 다루기
      • 행렬 설정 : dim(vec) <- c(2,3)
      • 행과 열 이름 붙이기
        • rownames(mtrx) <- c("lowname1", "lowname2", ---)
        • colnames(mtrx) <- c("colname1", "colname2", ---)
    4. 데이터 구조 변환
      • 벡터 -> 리스트, 행렬 -> 리스트, 데이터 프레임 -> 리스트
        • as.list(vec)
        • as.list(mat)
        • as.list(dfm)
      • 벡터 -> 행렬, 리스트 -> 행렬, 데이터 프레임 -> 행렬
        • cbind(vec) or as.matrix(vec) / rbind(vec) / matrix(n,m)
        • as.matrix(lst) / asmatrix(rbind(lst)) / matrix(lst, n, m)
        • as.matrix(dfm)
      • 행렬 -> 벡터, 리스트 -> 벡터, 데이터 프레임 -> 벡터
        • as.vector(mat)
        • ulist(lst)
        • dfm[[1]] or fm[,1] / dfm[1,]
    5. 집단으로 분할하기
      1. 벡터 : split(vec, fac)
      2. 데이터프레임 : split(dfm, fac)
    6. 함수 적용하기
      • 벡터 : apply(mtr, 1, func), apply(mtr, 2, func)
      • 리스트 : lapply(lst, func), sapply(lst, func)
      • 데이터프레임 : lapply(dfm, func), sapply(dfm, func), apply(dfm, 1or2, func)
    7. 집단별로 함수 적용하기
      • tapply(vec, fac, func)
      • by(dfm, fac, func)
    8. 병렬 벡터들과 리스트들에 함수 적용하기
      • 벡터 : mapply(func, vec1, vec2, vec3, ---)
      • 리스트 : mapply(func, lst1, lst2, lst3,---)
    9. 문자열 다루기
      • 문자열 길이 : nchar("문자열")
      • 벡터의 길이 : length(vec)
      • 문자열 연결하기 : paste("단어", "문장", scalar)
      • 하위 문자열 추출하기 : substr("문자열", 시작번호, 끝번호)
      • 구분자로 문자열 추출하기 : strsplit("문자열", 구분자)
      • 문자열 대체하기 : sub("대상문자열", "변경문자열", s), gsub("대상문자열", "변경문자열", s)
    10. 날짜 다루기
      1. 문자열 -> 날짜
        • as.Date("2014-12-25")
        • as.Date("12/25/2014", format="%m/%d/%Y")
      2. 날짜 -> 문자열
        • format(Sys.Date(), format = "%m/%d/%Y)"
      3. format 문자열
        • %b : ("Jan")
        • %B : ("January")
        • %d : ("31")
        • %m: ("02")
        • %y : ("14")
        • %Y : ("2014")
  5. 데이터 변형

3장. 데이터 마트

  1. 데이터 변경 및 요약
  2. 데이터 가공
  3. 기초 분석 및 데이터 관리

4장. 통계분석

  1. 통계분석의 이해
  2. 기초 통계 분석
  3. 회귀분석
  4. 시계열 분석
  5. 다차원 척도법
  6. 주성분분석

5장. 정형 데이터 마이닝

  1. 데이터 마이닝의 개요
  2. 분류분석
  3. 앙상블분석
  4. 인공신경망분석
  5. 군집분석
  6. 연관분석

 

반응형

'Data Science > ADsP' 카테고리의 다른 글

ADsP 합격  (0) 2024.03.16
3과목. 데이터 분석 개념원리  (0) 2024.02.21
2과목. 데이터 분석 기획  (0) 2024.01.28
1과목. 데이터의 이해  (0) 2024.01.28
Chapter 01. 데이터의 이해  (1) 2023.10.07