3장 통계 기법 이해
- 빅데이터 분석의 기초가 되는 통계기법을 학습
핵심키워드
- 표본추출
- 확률분포
- 추정
- 가설검정
01. 기술통계
- 데이터를 요약하고 객관화
- 기술 통계에 대해 이해
- 표본의 추출과 분포에 대한 개념
1. 데이터 요약
기술 통계 개념
- 통계학
- 불확실하고 잘 알려지지 않은 사실과 대상에 관련된 자료를 수집 및 요약정리하고, 이를 바탕으로 해석 및 분석하는 데 필요한 이론과 방법을 과학적으로 제시하는 학문
- 기술 통계학
- 수집된 자료를 정리하여 그림이나 표로 요약하거나 자료의 수치를 요약한 대푯값(통계량 : 평균, 분산, 상관계수 등)과 데이터 분포의 형태와 변동의 크기를 구하는 방법을 다루는 것
기술 통계와 추론 통계
- 기술 통계
- 표본 추출
- 표본 특성 파악
- 추론 통계
- 표본 추출
- 표본 특성 파악 후 일반화 여부 파악
- 전체 모집단의 특성을 ‘추정’
기술 통계로 데이터 요약하기
- 자료(현상)의 요약
- 자료를 대표하는 수
- 대푯값이나 중심값(평균, 최빈값, 중앙값 등)
- 예)
- 명목척도인 경우 최빈값을 대푯값으로 사용
- 서열척도의 경우 중앙값을 대푯값으로 사용
- 등간척도의 경우 평균값을 대푯값으로 사용
- 자료를 대표하는 수
- 자료(현상)의 변화 정도 파악
- 범위
- 최대 관측치와 최소 관측치의 차이
- 편차
- 개별 관측치에서 평균을 차감한 수를 편차라고 한다.
- 분산
- 평균으로부터 관측치들이 평균적으로 얼마나 떨어져 잇는지를 요약해주는 값
- 편차 제곱의 합을 관측치 수로 나누어서 구함
- 기술통계뿐만 아니라 추리통계에서도 중요한 역할
- 장점
- 변화 방향 무관, 변화의 폭을 쉽게 파악
- 단점
- 편차의 제곱이기 때문에 실제 측정치보다 매우 큰 숫자로 표현
- 실제 관측치의 단위 기준으로는 어느 정도 변화폭인지 파악하기 어려움
- 표준편차
- 분산에 제곱근을 적용해 구한 값
- 분산처럼 변화의 폭을 쉽게 파악할 수 있다.
- 실제 관측치의 단위와 동일한 단위로 변화를 파악할 수 있다.
- 범위
2. 표본 추출
표본 개념
- 전수조사
- 관측하고자 하는 데이터의 모든 범위를 조사하는 방법
- 표본조사
- 모집단의 일부분만 선택해 조사 · 분석하여 전체 집단의 특성을 추정하는 통계 조사 방법
- 표본 관측치들은 모집단 관측치의 대표성을 지녀야 함
- 모수
- 관심을 갖고 있는 모집단 관측
- 대표적인 모수
- 모비율, 모평균, 모총계 등
- 통계량
- 표본을 조사하여 얻은 데이터를 가지고 모수를 추정하기 위해 만든 공식을 의미
- 표본 추출 변동
- 표본을 뽑을 때마다 통계량이 달라지는 것
용어 해설
- 표본(sample)
- 큰 데이터 집합에서 얻은 부분 데이터 집합
- 모집단(population)
- 어떤 데이터 집합을 구성하는 전체 대상 또는 전체 집합
- 임의추출(random sampling)
- 무작위로 표본을 추출하는 것
- 무작위로 추출하기 때문에 각 추출에서 모든 데이터는 동일한 확률로 뽑힌다.
- 단순 임의 표본(simple random sample)
- 이 결과로 얻은 표본
- 모집단을 구간으로 나누지 않고 임의추출로 얻은 표본
- 복원추출(sampleing with replacement)
- 표본 추출 후 중복 추출이 가능하게 해당 표본을 다시 모집단에 포함해 추출하는 것
- 비복원추출(sampling without replacement)
- 표본 추출 후, 중복 추출이 안 되게 해당 표본을 다음번 추출에 사용하지 않는 것
- 층별 임의추출(stratified random sampling)
- 모집단을 구간으로 나누어 각 구간에서 무작위로 표본을 추출하는 것
- 단순 임의추출(simple random sampling)
- 모집단을 구간으로 나누지 않고 임의추출로 얻은 표본
- 표본편향(sample bias)
- 모집단을 잘못 대표하는 표본
- 표본(sample)
- 표본 조사의 절차
- 표본조사의 목표 설정
- 모집단 정의
- 표본 크기 결정
- 표본 추출 방법 선정
- 조사
- 데이터 분석 및 결과 도출
표본 크기의 결정
- 통계적으로 신뢰할 수 있는 정도의 표본 크기를 결정해야 한다.
확률 표본 추출
- 모집단 내의 모든 대상이 표본으로 선정될 확률을 동일하게 갖게 한 후 무작위로 표본을 추출하는 방법
- 객관성 확보
비확률 표본 추출
- 모집단의 구성요소인 각 추출 단위를 뽑을 때 비확률적 방법으로 표본을 추출하는 방법
- 추정의 정확성을 평가할 수 없어 일반화에 어려움
3. 확률 분포
확률 개념
- 확률
- 어떤 일이 일어날 가능성의 측도
- 확률의 종류
이론적 확률
- 수학적 이론을 기반으로 계산되는 확률을 의미
객관적 확률
- 동일 조건으로 몇 번 반복했을 때 발생할 확률을 의미
주관적 확률
- 관찰자의 주관적 견해로 표현되는 확률을 의미
확률분포의 개념
- 확률분포
- 확률 변수가 특정한 값을 가질 확률을 나타내는 함수
- 확률 변수(Random Variable)
- 결과를 예측할 수 없는 확률 실험에서 나타날 수 있는 확률적 결과를 수치로 표현한 값
- 이산확률 변수
- 유한하게 셀 수 있는 확률 변수
- 연속확률 변수
- 특정 범위 안에 모든 실숫값을 포함하는 경우의 확률 변수
- 확률분포(Probability Distribution)
- 확률분포함수(Probability Distribution Function)
- 확률 변수를 일직선상 공간에 표현한 함수
- 확률 질량 함수
- 누적 분포 함수
- 확률 밀도 함수
- 확률 변수를 일직선상 공간에 표현한 함수
확률분포 : 확률변수의 분포 형태를 그래프로 표현한 것
- 확률분포함수의 3가지 특징
- 비감소성 : 확률변수의 값의 크기가 분포함수의 값의 크기와 같다.
- a < b 이면, F(a) < F(b)
- 극한성 : 최소극한값은 ‘0’, 최대극한값은 ‘1’
- 우방 연속성 : 함수 그래프상 오른쪽(양의 값)으로 연속성을 갖는다.
- 비감소성 : 확률변수의 값의 크기가 분포함수의 값의 크기와 같다.
확률분포 종류
- 확률 변수의 종류에 따라 나눔
이산 확률 분포(discrete probaility distribution)
- 이산확률변수 X가 가지는 확률 분포
- 확률변수 X는 하나씩 셀 수 있는 값
- 기댓값
- 확률변수 X의 가능한 모든 값의 가중 평균을 의미
이산 확률 분포의 종류
- 이항분포(Binomial Distribution)
포아송 분포(Poisson Distribution)
초기하 분포(Hypergeometric Distribution)
- 비복원추출에서 N개 중에 n번 추출했을 때 원하는 것 k개가 뽑힐 확률의 분포
- 기하 분포(Geometric Distribution)
- 다항 분포(Multinomial Distribution)
- 여러 개의 값을 가질 수 있는 독립 확률변수들에 대한 확률분포
- 여러 번의 독립적 시행에서 각각의 값이 특정 횟수가 나타날 확률을 정의
연속 확률 분포(continuous probability distribution)
- 확률 밀도 함수를 이용해 분포를 표현할 수 있는 경우를 의미
- 연속 확률 변수
- 연속 확률 분포를 가지는 확률 변수
연속확률 분포의 종류
- 균등분포
정규분포(Normal Distribution)
- 분포 곡선이 평균값을 중앙으로 하여 좌우 대칭으로 종 모양을 이루는 분포
- 표준정규분포
- 감마분포
- 특정 수(n)의 사건이 일어날 때까지 걸리는 시간에 관한 연속 확률분포
- 지수분포 : 감마분포의 n에 1을 대입한 경우
- 베타분포
- 2개의 변수를 갖는 특수 함수인 베타함수를 이용한 분포
- 지수분포
t 분포
- 정규분포의 한계를 보완한 분포
f 분포
- 두 데이터셋의 분산을 다루는 분포로서 분산의 비율을 통해 그 크기를 비교
- 분산에 대한 검정이나 추정을 하는 경우 많이 활용
카이제곱분포
- 정규분포를 제곱하거나 제곱한 것을 더한 것
이산확률분포
- 베르누이 시행 : 연속된 n번의 독립적 시행에서 각 시행이 확률 p를 가질 때의 이산확률 분포
연속확률분포
4. 표본분포(Sampling Distribution)
표본분포
- 중심 극한정리의 특징
- 표본의 수가 작아도 모집단의 통계량을 추정할 수 있다.
- 모든 데이터를 정규분포로 만들 수 있다.
02. 추론 통계
- 모집단의 특성을 추론하기 위한 추정
- 가설검정을 이해하고 결과를 해석하는 방법
추론 통계(Inferential Statistics)
- 모집단에 대한 특성을 추론하는 과정
- 추정(estimation)
- 가설검정(test of hypotheses)
1. 점 추정
점추정(point estimation)
- 모수를 특정한 수치로 표현하는 것
- 추정량의 조건 종류
- 불편성(unbiasedness)
- 효율성(efficiency)
- 일치성(consistency)
좋은 추정량의 조건
- 평균 오차제곱이 최솟값
- 불편성 : 추정량이 모수와 동일
- 일치성 : 표본의 크기가 모집단 규모에 근접
- 효율성(유효성) : 추정량의 분산이 최솟값
- 충분성 : 표본이 모집단의 대표성을 가짐
2. 구간추정
구간추정(interval estimation)
- 모수를 최솟값과 최댓값의 범위로 추정하는 것
신뢰구간과 z 값
구간추정량 계산 방법
모비율의 신뢰구간 추정
구간추정 성질
3. 가설검정
가설검정 용어
단일 검정과 양측 검정
가설검정과 오류
제1종 오류와 제2종 오류
단일 모평균 검정
단일 모비율 검정
t 검정
출처
- 내용 출처
이지패스 2021 빅데이터분석기사 필기(수험서 앱 제공) / 위키북스 / 전용문, 정다혜, 임예은, 오경서 지음
[빅데이터 분석기사 필기 | 2. 빅데이터 분석 기획 (3) 기술통계] - 세우초밥
위키피디아/확률분포
[통계기초] 통계분석 : 통계적 추정 : 점추정, 구간추정 - 냉철한욱