3과목. 빅데이터 모델링 2장. 분석 기법 적용

2장 분석 기법 적용

  • 여러 가지 분석기법의 개념과 알고리즘에 대해 학습

핵심키워드

  • 지도학습
  • 비지도학습
  • 딥러닝
  • 비모수통계

01. 분석기법

  • 여러 가지 분석기법의 개념과 알고리즘에 대해 학습하고 각 기법이 어떤 상황에서 사용되는지 이해

1. 회귀분석

  • 회귀분석
    • 독립변수와 종속변수 간에 선형적인 관계를 도출해 독립변수가 종속변수에 미치는 영향의 정도를 분석하고, 독립변수를 통해 종속변수를 예측하는 분석기법

회귀분석의 가정

  • 오차와 잔차
    • 오차(error)
      • 모집단의 실제값과 회귀선과의 차이
    • 잔차(residual)
      • 표본에서 나온 관측값과 회귀선의 차이

알고리즘

  • Y=aX+b 형태의 추세선을 정의

    • Y : 종속변수
    • X : 독립변수
    • a : 기울기
    • b : Y축의 절편
    • a와 b는 회귀계수 혹은 파라미터
  • 회귀분석의 기본 알고리즘

    • 최소제곱법을 통해 파라미터를 추정하고 추정된 파라미터를 통해 추세선을 그려 값을 예측하는 것
    • 최소제곱법
      • 실제 관측치와 추세선에 의해 예측된 점 사이의 거리
      • 오차를 제곱해 더한 값을 최소화하는 것
  • 잔차의 제곱 합이 최소가 되는 추세선이 가장 합리적인 추세선

  • 왜 ‘잔차 제곱의 합’인가?

    잔차의 합이 아닌 잔차의 제곱 합을 사용하는 이유는 잔차는 양수가 될 수도 있고 음수가 될 수도 있어 잔차 합을 사용할 경우 잔차합이 0이 되는 추세선이 무수히 많이 발견될 수 있기 때문이다.

회귀분석의 종류

모형 적합성

  • F-통계량은 MSR/MSE로 계산

    • F-통계량이 커질수록 p-value는 작아지고, 유의수준 0.05에서 F-통계량에 의해 계산된 p-value가 0.05보다 작으면 모형이 통계적으로 유의하다고 판단
  • t-통계량은 회귀계수 / 표준오차로 계산

    • t-통계량이 크다는 것은 표준오차가 작다는 의미이므로 t-통계량이 클수록 회귀계수가 유의하다고 판단
    • t-통계량이 커질수록 p-value는 작아지고,
    • 유의수준 0.05에서 t-통계량에 의해 계산된 p-value가 0.05보다 작으면 모형이 통계적으로 유의하다고 판단
  • 결정계수 R²

    • 전체 변동 중 회귀모형에 의해 설명되는 변동의 비율로 표본에 의해 추정된 회귀식이 주어진 자료를 얼마나 잘 설명하는지를 보여주는 값
    • SSR/SST = 1-SSE/SST 로 계산

    • SST(총변동) = SSE + SSR
    • SSR은 회구모형에 의해 설명되는 변동
    • SSE는 회귀모형으로 설명하지 못하는 변동
    • 결정계수는 0과 1사이의 값
    • 결정계수가 1에 가까울수록 회귀모형이 주어진 자료를 잘 설명한다고 판단

단순회귀분석의 분산분석표

다중회귀분석의 분산분석표

2. 로지스틱 회귀분석

  • 독립변수의 선형결합을 이용해 사건의 발생 가능성을 예측
    • 임곗값(threshold)
      • 로지스틱 회귀분석에서 데이터가 어느 클래스에 속할지를 결정하는 기준값
      • 기본값은 0.5, 상황에 따라 그 값을 조정할 수 있다.
  • 독립변수가 연속형 데이터인 경우에 사용할 수 있으며 독립변수 중에 범주형 데이터가 있을 경우에는 더미 변수로 변환해 분석

알고리즘

  • 독립변수의 값에 상관없이 종속변수가 항상 0과 1 사이에 있어야 한다.

  • Odds(오즈)

    • 확률 p가 주어졌을 때 사건이 발생할 확률이 사건이 발생하지 않을 확률의 몇 배인지에 대한 개념
    • Odds = 사건이 발생할 확률 / 사건이 발생하지 않을 확률(= p / 1-p)

  • 로짓 변환

    • 로짓 : 오즈에 로그를 씌운 값
    • 종속변수 범위는 (-무한대, +무한대)
    • 오즈 범위 (0, 무한대)
    • 오즈의 범위를 회귀분석과 동일한 (-무한대, +무한대)로 변환하기 위해 사용

  • 시그모이드 함수

    • 로짓 함수와 역함수 관계
    • log(Odds) = wX + b 가 성립
    • 시그모이드 함수의 w와 b를 통해 시그모이드 함수의 최적선을 찾아 분류를 결정
  • 로지스틱 회귀분석은 **최대우도법(Maximum Likelihood Estimator)**을 사용해 데이터를 가장 잘 설명할 수 있는 계수를 추정하고 최적의 회귀식을 찾는다.

    • 우도함수를 최대로 하는 값으로 파라미터를 결정
    • 회귀분석 : 최소제곱법, 로지스틱 회귀분석 : 최대우도법

로지스틱 회귀분석 - 오즈/오즈 비

로지스틱 회귀분석 - 오즈/오즈 비 계산

로지스틱 회귀분석 - 모형 적합성

  • 이탈도
    • 모형이 설명하지 못하는 데이터의 정도
    • 영 이탈도(null deviance) : 절편만 포함된 모형의 적합도
    • 잔차 이탈도(residual deviance) : 독립변수를 포함한 모형의 적합도
    • 이탈도가 작을수록 모형이 통계적으로 유의하다고 판단
  • 왈드 검정(wald test)
    • 왈드 검정에 대한 검정 통계량인 z-value의 p-value가 유의수준보다 작을 때 계수가 유의하다
  • 모형의 설명력
    • 로지스틱 회귀분석에서 결정계수는 보통 낮게 나오는 편
    • 결정계수에 너무 의존할 필요는 없다
    • AIC값이 작을수록 설명력이 좋다

3. 의사결정 트리 분석

  • 의사결정 트리(Decision Tree)
    • 데이터를 학습하여 데이터 내에 존재하는 규칙을 찾아내고 이 규칙을 나무구조로 모형화해 분류와 예측을 수행하는 분석방법

의사결정 트리의 구성요소

의사결정 트리의 알고리즘

  1. 의사결정 트리 형성과정
    • Step 1 나무의 성장
      • 분석 목적과 자료구조에 따라 적절한 분리 기준과 정지 규칙을 설정해 의사결정 트리를 성장시키는 단계
      • 각 마디에서 최적의 분리 규칙을 찾아 의사결정 트리를 형성하고 적절한 정지 규칙을 만족하면 나무의 성장을 중단
      • 최적의 분할은 불순도 감소량을 가장 크게 하는 분할
    • Step 2 가지치기
      • 불필요한 가지를 제거하는 단계
      • 분류 오류를 크게 할 위험이 있거나 부적절한 분류기준을 가진 가지를 제거
      • 너무 큰 트리 구조는 과적합의 위험
      • 너무 작은 트리 구조는 과소적합의 위험
    • Step 3 타당성 평가
      • 형성된 의사결정 트리를 평가하는 단계
      • 검증용 데이터를 이용해 모델의 예측 정확도를 평가
      • 이익 도표 등의 평가지표를 이용해 의사결정 트리를 평가
    • Step 4 해석 및 예측
      • 구축된 의사결정 트리를 예측에 적용하고 이를 해석하는 단계
  2. 정지 규칙과 가지치기
    • 정지 규칙
      • 더 이상 트리의 분리가 일어나지 않게 하는 규칙
      • 과적합을 방지하기 위해 트리의 깊이를 제한
      • 마디에 속하는 자료가 일정 수 이하일 경우 분할을 정지
      • 적절한 정지 규칙을 통해 모형의 크기를 통제
    • 가지치기
      • 불필요한 가지를 제거(타당성이 없는 규칙을 제거)
      • 검증용 데이터를 활용해 예측 정확도를 산출하고 이를 기반으로 불필요한 가지를 제거
      • 구축된 모형에서 제시되는 규칙들의 타당성을 검토
  3. 가지치기 분리 기준

의사결정 트리에서 사용하는 분류 기준

의사결정 트리 분류 기준 계산식

의사결정 트리의 장단점

4. 인공신경망 분석

  • 실제 생물의 신경계를 모방해 예측 및 분류를 하는 머신러닝 알고리즘
  • 인공신경망 분석에서 값이 입력되면 개별 신호의 정도에 따라 값이 가중
  • 가중된 값에 편향(bias) 상수를 더한후 활성함수를 거치면 인공신경망의 출력값이 생성

인공신경망의 활성화함수

신경망의 계층 구조

  • 인공신경망은 입력층, 은닉층, 출력층으로 구성
  • 입력층
    • 시스템 외부로부터 예측을 위한 데이터를 입력받아 시스템으로 전송하는 역할
    • 어떠한 연산도 발생하지 않음
  • 은닉층
    • 일종의 블랙박스(신경망 외부에서는 은닉층의 노드에 직접 접근할 수 없다)
    • 입력층으로부터 값을 전달받아 가중합과 편향을 계산한 후 활성함수에 적용
    • 결과를 산출하고 출력층으로 전송
  • 출력층
    • 학습된 데이터가 포함된 층
    • 활성함수의 결과를 담고 있는 노드로 구성
    • 노드 수 = 출력 범주의 수
    • 분류 문제일 경우 출력층의 노드는 각 라벨의 확률을 포함

인공신경망의 장단점

인공신경망의 종류

  1. 단층 퍼셉트론
    • 입력층이 은닉층을 거치지 않고 바로 출력층과 연결
    • 동작 절차
      1. 값을 입력받는다.
      2. 입력값과 가중치를 곱한다.
      3. 2.에서 계산한 값을 모두 더한다.
      4. 활성함수를 적용한다.
      5. 결괏값을 도출한다.
    • 선형분류기이기 때문에 XOR 게이트와 같은 비선형 영역의 구분은 불가능
  2. 다층 퍼셉트론
    • 둘 이상의 퍼셉트론의 중첩으로 입력층과 출력층 사이에 하나 이상의 은닉층을 두어 비선형적인 데이터도 학습할 수 있게 한 알고리즘
    • 단층 퍼셉트론에서는 불가능했던 XOR 게이트 연산가능
    • 동작 절차
      1. 각 층에서의 가중치와 편향을 설정

      2. 학습 데이터를 통해 출력값을 도출

      3. 가중치를 업데이트

        (출력층의 활성함수를 통해 계산된 결괏값과 실제값의 오차가 허용 오차 이내에 들어오게 업데이트)

      4. 오차가 허용 오차 안데 들면 학습을 종료

5. 서포트 벡터 머신

  • 분류와 회귀분석에 사용되는 지도학습 알고리즘
  • 데이터를 학습해 새로운 데이터가 어떤 범주에 속할지 결정하는 비확률적 이진 선형모델
  • n차원 데이터를 n-1차원의 초평면으로 분리
  • 마진
    • 서포트 벡터와 결정 경계 사이의 거리
    • 서포트벡터 : 결정 경계와 가장 가까운 데이터

서포트 벡터 머신의 구성요소

  • SVM의 최적화 과정
    • 마진을 최대화하는 것, ||w||의 값이 최소가 되게 하는 것

하드마진과 소프트마진

서포트 벡터 머신의 파라미터

커널 기법

  • 선형으로 분리되지 않는 데이터는 커널 트릭을 통해 입력 데이터를 저차원에서 고차원으로 매핑하여 해결할 수 있다.
  • 커널트릭(kernel trick)
    • 고차원의 모든 데이터를 매핑한 후 내적을 하면 계산량과 연산 비용이 폭등되는 문제를 해결
    • 실제로 데이터를 매핑하여 내적하지 않고 비슷한 효과를 만듬

서포트 벡터 머신의 장단점

6. 연관성 분석

  • 상품이나 서비스를 구매하는 등 일련의 거래나 사건의 데이터 안에 존재하는 항목 간의 일정한 연관 규칙을 발견하는 과정
  • 목표변수가 불필요한 비지도학습의 한 종류
  • 특정한 분석목표가 없을 때도 사용할 수 있다.
  • 장바구니 분석

연관성분석 측정지표

연관성분석 aporiori 알고리즘 절차

연관성분석의 장단점

7. 군집분석

  • 관측치들의 유사성(관측치들 사이의 거리)에 기초해 전체 데이터를 몇개의 집단으로 나누는 분석기법
  • 개체를 분류하기 위한 명확한 기준이 존재하지 않는 경우 사용하는 비지도학습의 한 방법

군집 간 거리 측정 방법

군집분석 k-평균의 특징

군집분석 EM 알고리즘 절차

02. 고급 분석기법

  • 다양한 고급 분석기법의 개념과 활용방안에 대해 학습

1. 범주형 자료분석

범주형 자료분석의 종류

카이제곱 검정

T-검정

2. 다변량 분석

다변량 분석의 유형

MANOVA 통계량

요인분석의 조건

요인분석의 목적

요인분석 판별함수의 수

요인분석 : MDS의 stress 척도

3. 시계열 분석

시계열 분석에서의 정상성 조건

시계열의 구성요소

시계열 모형

4. 베르지안 기법

베이즈 정리

나이브 베이즈 분류

5. 딥러닝 분석

딥러닝 - 기존 신경망의 문제점을 해결한 방법

딥러닝 - 합성곱 신경망

딥러닝 - 순환신경망

6. 비정형 데이터 분석

텍스트 마이닝 수행 단계

어간 추출 vs. 표제어 추출

사회연결망 분석 중심성 척도

7. 앙상블 분석

앙상블 분석 방법

8. 비모수 통계

비모수 통계

출처

Share