2과목. 빅데이터 탐색 2장. 데이터 탐색

2장 데이터 탐색

데이터 간의 유의미한 관계 파악 및 이해를 위한 탐색 방법들을 학습한다.

핵심 키워드

  • EDA
  • 상관분석
  • 기초통계량
  • 다변량분석

01. 데이터 탐색 기초

학습목표

데이터 탐색을 위한 기본적인 통계 확인과 관계 및 분포를 해석하는 방법을 학습

1. 데이터 탐색 개요

EDA

EDA의 4R

데이터 탐색 개요

개별 변수 탐색 방법

다차원 데이터 탐색 방법

JOIN 종류

2. 상관 관계 분석

상관분석과 상관계수

  • 스피어만 상관계수
  • 켄달 상관계수
  • 피어슨 상관계수(가장 일반적)
  • -1과 1 사이의 값을 가지고 강도와 방향의 측면에서 해석할 수 있다.

상관계수 해석

  • 강도 : 상관계수의 절댓값이 클수록 강한 상관이 있다.
    • 상관계수 ±1의 극단 값 : 실제로 거의 존재하지 않으며 완전한 선형관계를 의미
    • 상관계수 0 : 선형의 상관관계가 없음을 의미
  • 방향 : 상관계수의 부호는 관계의 방향을 의미
    • 양(+)의 상관계수 : 한 변수의 값이 증가함에 따라 다른 변수의 값도 증가
    • 음(-)의 상관계수 : 한 변수의 값이 증가함에 따라 다른 변수의 값은 감소

상관계수에 따른 그래프 유형

피어슨 상관 계수 vs. 스피어만 상관계수

3. 기초통계량 추출 및 이해

기초통계량 추출 및 이해

  • 중심경향치 : 단일 값으로 전체 데이터를 대표할 수 있게 중앙에 위치한 데이터를 표현

  • 산포도 : 데이터의 흩어진 정도를 설명하는 통계치

  • 왜도 : 데이터 분포의 비대칭성을 나타내는 지표

  • 첨도 : 데이터들이 분포의 중심에 어느 정도 몰려 있는 가를 측정할 때 사용하는 지표

4. 시각적 데이터 탐색

시각적 데이터 탐색 - 그래프 종류

  • 히스토그램

  • 막대그래프

  • 줄기-잎 그림

  • 상자그림

  • 산점도

  • 원그래프

02. 고급 데이터 탐색

학습목표

현실 속의 다양한 형태로 존재하는 데이터를 처리하고 분석하는 방법

1. 시공간 데이터 탐색

시간 데이터의 이해

  • 날짜와 시간 데이터는 실생활에서 자주 접할 수 있는 데이터 형태로 유용한 정보를 제공

R에서 자주 사용하는 시간 포맷 형식

공간분석과 GIS

GIS 구성요소

시공간 데이터

  • 공간적 객체에 시간의 개념이 추가되어 시간에 따라 위치나 형상이 변하는 데이터
  • 시공간 데이터의 특징

  • 시공간 데이터의 타입
    • 포인트 타입 : 하나의 노드로 구성되는 공간 데이터 타입
    • 라인 타입 : 서로 다른 두 개의 노드와 두 노드를 잇는 하나의 세그먼트로 구성
    • 폴리곤 타입 : n개의 노드와 n개의 세그먼트로 구성
    • 폴리라인 타입 : n개의 노드와 n-1개의 세그먼트로 구성

시공간 데이터 탐색 절차

  • 주소를 행정구역으로 변환
    • 문자열 처리 함수를 이용해 쉽게 변환 가능
  • 주소를 좌표계로 변환
    • 시공간 데이터의 주소를 이용하여 위도와 경도로 변환
    • 지오 코딩 서비스를 이용하여 좌표계로 변환
      • ex.Geocoder.us (위도 경도 반환 서비스)
      • Google Maps Latitude Popup (구글 매쉬업 프로젝트)
      • Geopy (파이썬용 지오 코딩 도구 모음)
  • 행정구역 및 좌표계를 지도에 표시
    • 시공간 데이터에 따라 행정구역 데이터를 지도에 표시하거나 좌표계를 지도에 표시함

    • 코로플레스 지도

      • 어떤 데이터 수치에 따라 지정한 색상 스케일로 영역을 색칠해서 표현하는 방법으로 등치지역도라고도 함
      • 영역별 데이터를 표현하는 가장 보편적인 방법으로 데이터값의 크기에 따라 지역별로 색을 다르게 표시함
      • 인구밀도가 매우 높은 지역과 낮은 지역에 동일한 척도를 적용할 경우 표시한 지역의 면적이 실제 데이터값의 크기를 반영할 수 없다는 단점

    • 카토그램

      • 특정한 데이터값의 변화에 따라 지도의 면적이 왜곡되는 지도로 변량비례도라고도 함
      • 데이터값이 큰 지역의 면적이 시각적으로도 더 크게 표시됨으로써 데이터값의 크기를 직관적으로 인지할 수 있다는 장점
      • 지도의 형태를 왜곡시킴으로써 데이터 지각의 왜곡을 방지하도록 보정

    • 버블플롯맵

      • 버블차트에 위도 경도 정보를 적용하여 좌표를 원으로 시각화한 지도
      • 원의 크기, 색깔 등을 반영하여 시각화 표현

2. 다변량 데이터 탐색

다변량 데이터

  • 변량 : 조사 대상의 특징, 성질을 숫자 또는 문자로 나타낸 값

일변량 분석 vs. 이변량 분석 vs. 다변량 분석

다변량 분석 기법

다변량 데이터 탐색 도구

  • 산점도 행렬
    • 두 변수 간의 산점도를 행렬로 나타내 변수 간의 연관성을 표현한 그래프

    • 그림행렬

      • 변수가 여러 개 있을 때 변수쌍 간의 관계를 보기 위함

    • 개별 Y대 개별 X 산점도 행렬

      • y축 및 x축 변수를 사용하여 가능한 각 xy 조합의 그래프 생성

    • 별 그림

      • 별 모양의 점을 각각의 변수에 대응되도록 한 뒤 각각의 변숫값에 비례하도록 반경을 나타내어 관찰 값을 그림으로 표시한 것

3. 비정형 데이터 탐색

비정형 데이터의 개념

  • 일정한 규격이나 형태를 지닌 숫자 데이터와 달리 이미지와 영상, 텍스트처럼 형태와 구조가 다른 구조화되지 않은 데이터

비정형 데이터의 유형

비정형 데이터의 탐색 방법

비정형 데이터 탐색 플랫폼 구성 예시

텍스트 마이닝

텍스트 마이닝 응용 분야

텍스트 마이닝 용어

소셜 네트워크 분석

소셜 네트워크 분석 방법론

네트워크 구조를 파악하기 위한 요소 - 중심성

전체 네트워크에서 한 개체가 중심에 위치하는 정도를 표현하는 지표

네트워크 노드

출처

Share