2과목. 빅데이터 탐색 3장. 통계 기법 이해

3장 통계 기법 이해

  • 빅데이터 분석의 기초가 되는 통계기법을 학습

핵심키워드

  • 표본추출
  • 확률분포
  • 추정
  • 가설검정

01. 기술통계

  • 데이터를 요약하고 객관화
  • 기술 통계에 대해 이해
  • 표본의 추출과 분포에 대한 개념

1. 데이터 요약

기술 통계 개념

  • 통계학
    • 불확실하고 잘 알려지지 않은 사실과 대상에 관련된 자료를 수집 및 요약정리하고, 이를 바탕으로 해석 및 분석하는 데 필요한 이론과 방법을 과학적으로 제시하는 학문
  • 기술 통계학
    • 수집된 자료를 정리하여 그림이나 표로 요약하거나 자료의 수치를 요약한 대푯값(통계량 : 평균, 분산, 상관계수 등)과 데이터 분포의 형태와 변동의 크기를 구하는 방법을 다루는 것

기술 통계와 추론 통계

  • 기술 통계
    1. 표본 추출
    2. 표본 특성 파악
  • 추론 통계
    1. 표본 추출
    2. 표본 특성 파악 후 일반화 여부 파악
    3. 전체 모집단의 특성을 ‘추정’

기술 통계로 데이터 요약하기

  • 자료(현상)의 요약
    • 자료를 대표하는 수
      • 대푯값이나 중심값(평균, 최빈값, 중앙값 등)
    • 예)
      • 명목척도인 경우 최빈값을 대푯값으로 사용
      • 서열척도의 경우 중앙값을 대푯값으로 사용
      • 등간척도의 경우 평균값을 대푯값으로 사용
  • 자료(현상)의 변화 정도 파악
    • 범위
      • 최대 관측치와 최소 관측치의 차이
    • 편차
      • 개별 관측치에서 평균을 차감한 수를 편차라고 한다.
    • 분산
      • 평균으로부터 관측치들이 평균적으로 얼마나 떨어져 잇는지를 요약해주는 값
      • 편차 제곱의 합을 관측치 수로 나누어서 구함
      • 기술통계뿐만 아니라 추리통계에서도 중요한 역할
      • 장점
        • 변화 방향 무관, 변화의 폭을 쉽게 파악
      • 단점
        • 편차의 제곱이기 때문에 실제 측정치보다 매우 큰 숫자로 표현
        • 실제 관측치의 단위 기준으로는 어느 정도 변화폭인지 파악하기 어려움
    • 표준편차
      • 분산에 제곱근을 적용해 구한 값
      • 분산처럼 변화의 폭을 쉽게 파악할 수 있다.
      • 실제 관측치의 단위와 동일한 단위로 변화를 파악할 수 있다.

2. 표본 추출

표본 개념

  • 전수조사
    • 관측하고자 하는 데이터의 모든 범위를 조사하는 방법
  • 표본조사
    • 모집단의 일부분만 선택해 조사 · 분석하여 전체 집단의 특성을 추정하는 통계 조사 방법
    • 표본 관측치들은 모집단 관측치의 대표성을 지녀야 함
    • 모수
      • 관심을 갖고 있는 모집단 관측
      • 대표적인 모수
        • 모비율, 모평균, 모총계
    • 통계량
      • 표본을 조사하여 얻은 데이터를 가지고 모수를 추정하기 위해 만든 공식을 의미
      • 표본 추출 변동
        • 표본을 뽑을 때마다 통계량이 달라지는 것
  • 용어 해설
    • 표본(sample)
      • 큰 데이터 집합에서 얻은 부분 데이터 집합
    • 모집단(population)
      • 어떤 데이터 집합을 구성하는 전체 대상 또는 전체 집합
    • 임의추출(random sampling)
      • 무작위로 표본을 추출하는 것
      • 무작위로 추출하기 때문에 각 추출에서 모든 데이터는 동일한 확률로 뽑힌다.
      • 단순 임의 표본(simple random sample)
        • 이 결과로 얻은 표본
      • 모집단을 구간으로 나누지 않고 임의추출로 얻은 표본
    • 복원추출(sampleing with replacement)
      • 표본 추출 후 중복 추출이 가능하게 해당 표본을 다시 모집단에 포함해 추출하는 것
    • 비복원추출(sampling without replacement)
      • 표본 추출 후, 중복 추출이 안 되게 해당 표본을 다음번 추출에 사용하지 않는 것
    • 층별 임의추출(stratified random sampling)
      • 모집단을 구간으로 나누어 각 구간에서 무작위로 표본을 추출하는 것
    • 단순 임의추출(simple random sampling)
      • 모집단을 구간으로 나누지 않고 임의추출로 얻은 표본
    • 표본편향(sample bias)
      • 모집단을 잘못 대표하는 표본
  • 표본 조사의 절차
    1. 표본조사의 목표 설정
    2. 모집단 정의
    3. 표본 크기 결정
    4. 표본 추출 방법 선정
    5. 조사
    6. 데이터 분석 및 결과 도출

표본 크기의 결정

  • 통계적으로 신뢰할 수 있는 정도의 표본 크기를 결정해야 한다.

확률 표본 추출

  • 모집단 내의 모든 대상이 표본으로 선정될 확률을 동일하게 갖게 한 후 무작위로 표본을 추출하는 방법
  • 객관성 확보

비확률 표본 추출

  • 모집단의 구성요소인 각 추출 단위를 뽑을 때 비확률적 방법으로 표본을 추출하는 방법
  • 추정의 정확성을 평가할 수 없어 일반화에 어려움

3. 확률 분포

확률 개념

  • 확률
    • 어떤 일이 일어날 가능성의 측도
  • 확률의 종류
    • 이론적 확률

      • 수학적 이론을 기반으로 계산되는 확률을 의미

    • 객관적 확률

      • 동일 조건으로 몇 번 반복했을 때 발생할 확률을 의미
    • 주관적 확률

      • 관찰자의 주관적 견해로 표현되는 확률을 의미

확률분포의 개념

  • 확률분포
    • 확률 변수가 특정한 값을 가질 확률을 나타내는 함수
  1. 확률 변수(Random Variable)
    • 결과를 예측할 수 없는 확률 실험에서 나타날 수 있는 확률적 결과를 수치로 표현한 값
    • 이산확률 변수
      • 유한하게 셀 수 있는 확률 변수
    • 연속확률 변수
      • 특정 범위 안에 모든 실숫값을 포함하는 경우의 확률 변수
  2. 확률분포(Probability Distribution)
  3. 확률분포함수(Probability Distribution Function)
    • 확률 변수를 일직선상 공간에 표현한 함수
      • 확률 질량 함수
      • 누적 분포 함수
      • 확률 밀도 함수

확률분포 : 확률변수의 분포 형태를 그래프로 표현한 것

  • 확률분포함수의 3가지 특징
    • 비감소성 : 확률변수의 값의 크기가 분포함수의 값의 크기와 같다.
      • a < b 이면, F(a) < F(b)
    • 극한성 : 최소극한값은 ‘0’, 최대극한값은 ‘1’
    • 우방 연속성 : 함수 그래프상 오른쪽(양의 값)으로 연속성을 갖는다.

확률분포 종류

  • 확률 변수의 종류에 따라 나눔
    • 이산 확률 분포(discrete probaility distribution)

      • 이산확률변수 X가 가지는 확률 분포
      • 확률변수 X는 하나씩 셀 수 있는 값
      • 기댓값
        • 확률변수 X의 가능한 모든 값의 가중 평균을 의미
    • 이산 확률 분포의 종류

      • 이항분포(Binomial Distribution)

      • 포아송 분포(Poisson Distribution)

      • 초기하 분포(Hypergeometric Distribution)
        • 비복원추출에서 N개 중에 n번 추출했을 때 원하는 것 k개가 뽑힐 확률의 분포
      • 기하 분포(Geometric Distribution)
      • 다항 분포(Multinomial Distribution)
        • 여러 개의 값을 가질 수 있는 독립 확률변수들에 대한 확률분포
        • 여러 번의 독립적 시행에서 각각의 값이 특정 횟수가 나타날 확률을 정의
    • 연속 확률 분포(continuous probability distribution)

      • 확률 밀도 함수를 이용해 분포를 표현할 수 있는 경우를 의미
      • 연속 확률 변수
        • 연속 확률 분포를 가지는 확률 변수
    • 연속확률 분포의 종류

      • 균등분포
      • 정규분포(Normal Distribution)
        • 분포 곡선이 평균값을 중앙으로 하여 좌우 대칭으로 종 모양을 이루는 분포
      • 표준정규분포
      • 감마분포
        • 특정 수(n)의 사건이 일어날 때까지 걸리는 시간에 관한 연속 확률분포
        • 지수분포 : 감마분포의 n에 1을 대입한 경우
      • 베타분포
        • 2개의 변수를 갖는 특수 함수인 베타함수를 이용한 분포
      • 지수분포
      • t 분포
        • 정규분포의 한계를 보완한 분포
      • f 분포
        • 두 데이터셋의 분산을 다루는 분포로서 분산의 비율을 통해 그 크기를 비교
        • 분산에 대한 검정이나 추정을 하는 경우 많이 활용
      • 카이제곱분포
        • 정규분포를 제곱하거나 제곱한 것을 더한 것

이산확률분포

  • 베르누이 시행 : 연속된 n번의 독립적 시행에서 각 시행이 확률 p를 가질 때의 이산확률 분포

연속확률분포

4. 표본분포(Sampling Distribution)

표본분포

  • 중심 극한정리의 특징
    • 표본의 수가 작아도 모집단의 통계량을 추정할 수 있다.
    • 모든 데이터를 정규분포로 만들 수 있다.

02. 추론 통계

  • 모집단의 특성을 추론하기 위한 추정
  • 가설검정을 이해하고 결과를 해석하는 방법

추론 통계(Inferential Statistics)

  • 모집단에 대한 특성을 추론하는 과정
  • 추정(estimation)
  • 가설검정(test of hypotheses)

1. 점 추정

점추정(point estimation)

  • 모수를 특정한 수치로 표현하는 것

  • 추정량의 조건 종류
    • 불편성(unbiasedness)
    • 효율성(efficiency)
    • 일치성(consistency)

좋은 추정량의 조건

  • 평균 오차제곱이 최솟값
  • 불편성 : 추정량이 모수와 동일
  • 일치성 : 표본의 크기가 모집단 규모에 근접
  • 효율성(유효성) : 추정량의 분산이 최솟값
  • 충분성 : 표본이 모집단의 대표성을 가짐

2. 구간추정

구간추정(interval estimation)

  • 모수를 최솟값과 최댓값의 범위로 추정하는 것

신뢰구간과 z 값

구간추정량 계산 방법

모비율의 신뢰구간 추정

구간추정 성질

3. 가설검정

가설검정 용어

단일 검정과 양측 검정

가설검정과 오류

제1종 오류와 제2종 오류

단일 모평균 검정

단일 모비율 검정

t 검정

출처

Share