1과목. 빅데이터 분석 기획 1장. 빅데이터의 이해

1장. 빅데이터의 이해

  • 빅데이터를 공부할 때 가장 기초가 되는 부분이다.

    핵심 키워드

    • 빅데이터의 개념
    • 데이터사이언티스트
    • 인사이트 도출
    • 빅데이터 플랫폼

01_빅데이터 개요 및 활용

학습목표

  • 빅데이터의 기초 개념과 산업 그리고 조직에 관한 일반적인 지식을 습득한다.

1. 빅데이터 기초

데이터의 유형

정량적 데이터(정형 데이터) - 수치로 표현할 수 있는 숫자 · 도형 · 기호 등의 데이터
- 저장 · 검색 · 분석 활용에 용이
정성적 데이터(비정형 데이터) - 언어 · 문자 등의 정형화되지 않은 데이터
- ‘영화 감상평’, ‘SNS 실시간 검색어’ 등의 정성적 데이터 수집과 분석에는 상대적으로 많은 비용과 기술적 투자가 필요

암묵지와 형식지

  • 암묵지(Tacit Knowledge)

: 학습과 체험을 통해 개인에게 습득되어 있지만, 겉으로 드러나지 않는 상태의 지식

  • 형식지(Explicit Knowledge)

: 암묵지가 문서나 매뉴얼처럼 외부로 표출돼 여러 사람이 공유할 수 있는 지식

  • 암묵지와 형식지의 상호작용

: 공유화되기 어려운 암묵지가 형식지로 표출되고 연결되면 그 상호작용으로 지식이 형성된다.

암묵지 형식지
공통화(Socialization) 표출화(Externalization)
내면화(Internalization) 연결화(Combination)

데이터와 정보

  • 데이터(Data)

: 개별 데이터 자체는 의미가 중요하지 않은 객관적인 사실

  • 정보(Information)

: 데이터의 가공 · 처리와 데이터 간 연관 관계 속에서 의미가 도출된 것

  • 지식(Knowledge)

: 데이터를 통해 도출된 다양한 정보를 구조화하여 유의미한 정보를 분류하고 개인적인 경험을 결합해 고유의 지식으로 내재화된 것

  • 지혜(Wisdom)

: 지식의 축적과 아이디어가 결합된 창의적 산물

데이터베이스의 특징

정보의 축적 및 전달 측면 - 기계 가독성 : 대량의 정보를 일정한 형식에 따라 컴퓨터 등의 정보처리기기가 읽고 쓸 수 있다.
- 검색 가능성 : 다양한 방법으로 필요한 정보를 검색할 수 있다.
- 원격 조작성 : 정보통신망을 통해 원거리에서도 즉시 온라인으로 이용 가능하다.
정보이용 측면 - 이용자의 정보요구에 따라 다양한 정보를 신속하게 획득할 수 있고 원하는 정보를 정확하고 경제적으로 찾아낼 수 있다.
정보관리 측면 - 정보를 일정한 질서와 구조에 따라 정리 · 저장하고 검색 · 관리할 수 있게 하여 방대한 양의 정보를 체계적으로 축적하고, 새로운 내용 추가나 갱신이 용이하다.
정보기술발전 측면 - 데이터베이스는 정보처리, 검색 · 관리 소프트웨어, 관련 하드웨어, 정보 전송을 위한 네트워크 기술 등의 발전을 견인할 수 있다.
경제 · 산업적측면 - 데이터베이스는 다양한 정보를 필요에 따라 신속하게 제공 · 이용할 수 있는 인프라의 특성을 가지고 있어 경제, 산업, 사회 활동의 효율성을 제고하고 국민의 편의를 증진하는 수단으로써의 의미를 가진다.

부문별 사회 기반 구조의 데이터베이스

물류 부문 - ‘실시간 차량 추적’을 위한 종합물류정보망 구축
- CVO 서비스, EDI 서비스, 물류 정보 DB 서비스, 부가서비스로 구성
- CALS(Commerce At Light Speed): 제품의 설계 · 개발 · 생산에서 유통 · 폐기에 이르기까지 제품의 라이프사이클 전반에 관련된 데이터를 통합하고 공유 · 교환할 수 있게 한 경영통합정보시스템을 말한다.
- PORT-MIS : 항만운영정보시스템
- KROIS : 철도운영정보시스템
지리 부문 - GIS 응용에 활용하는 4S 통합기술
- 지리정보유통망 가시화 : 지리정보 통합관리소 운영, 지리정보 수요자에 정보 제공
- GIS(Geographic Information System) : 지리정보시스템
- LBS(Location-Based Service) : 위치정보서비스
- SIM(Spatial Information Management) : 공간정보 관리시스템
교통 부문 - 지능형교통정보시스템(ITS), 교통정보, 기초자료 및 통계 제공, 대국민 서비스 확대
의료 부문 - 의료정보시스템 : 처방전달시스템, 임상병리, 전자의무기록, 영상처리시스템, 병원의 멀티미디어, 원격의료, 지식 정보화
- HL7 국내 표준화 작업에 따라 전국적인 진료 정보 공유 체계 구축 계획 수립 - U헬스 실현에 기존 의료정보 데이터베이스 기반 활용 - PACS(Picture Archiving and Communications System) - U-Health(Ubiquitous-Health)
교육 부문 - 첨단 정보통신기술(ICT)을 활용한 각종 교육 정보의 개발 및 보급, 정보 활용 교육
- 대학 정보화 및 교육행정 정보화 위주로 사업 추진
- 교육행정정보시스템(NEIS)은 학사뿐만 아니라 기타 교육행정 전 업무를 처리하는 시스템

2. 빅데이터의 이해와 가치

빅데이터의 특징 - 3V

구분 세부내용
Volume(크기) 대량의 데이터 증가 발생으로 기존 데이터 수집, 관리 한계
Variety(다양성) 비정형 데이터(영상, SNS 등)의 발생으로 다양한 데이터 형식 증가
Velocity(속도) 실시간 정보 발생으로 데이터의 유입, 처리 속도 요구
Value(가치) 데이터 전체를 파악하고 패턴을 발견하기가 어렵게 되면서 가치(Value)의 중요성 강조
Veracity(정확성) 빅데이터 기반의 예측 분석 결과에 대한 신뢰성이 중요하게 됨

빅데이터에 거는 기대

빅데이터는
“산업혁명의 석탄 · 철”
제조업뿐만 아니라 서비스 분야의 생산성을 획기적으로 끌어올려 사회 · 경제 · 문화 · 생활 전반에 혁명적 변화를 가져올 것으로 기대된다.
빅데이터는
“21세기 원유”
빅데이터도 원유처럼 각종 비즈니스, 공공기관 대국민 서비스, 그리고 경제 성장에 필요한 정보를 제공하여 산업 전반의 생산성을 향상시키고 새로운 범주의 산업을 만들어낼 것으로 기대된다.
빅데이터는
“렌즈”
렌즈를 통해 현미경이 생물학 발전에 끼쳤던 영향만큼, 빅데이터도 렌즈처럼 산업 발전에 큰 영향을 줄 것으로 기대된다.
대표 사례) 구글의 Ngram Viewer
빅데이터는
“플랫폼”
플랫폼은 공동 활용의 목적으로 구축된 유무형의 구조물을 말한다. 빅데이는 플랫폼으로서 다양한 서드파티 비즈니스에 활용될 것으로 기대된다.
대표 사례) 페이스북, 카카오톡 등

빅데이터가 만들어내는 변화

  • 사전처리 → 사후처리 : 데이터를 사전 처리하지 않고, 가능한 많은 데이터를 모으고 데이터를 다양한 방식으로 조합하여 숨은 인사이트를 발굴한다.
  • 표본조사 → 전수조사 : IoT · 클라우드 기술의 발전으로 데이터 처리 비용이 감소하게 되면서, 데이터 활용 방법이 표본조사에서 전수조사로 변화됐다.
  • 질 → 양 : 수집 데이터의 양이 증가할수록 분석의 정확도가 높아져 양질의 분석 결과 산출에 긍정적인 영향을 줬다.
  • 인과관계 → 상관관계 : 특정한 인과관계가 중요시되던 과거와 달리, 데이터의 양이 급격하게 늘어나면서 상관관계를 통해 특정 현상의 발생 가능성이 포착되고 그에 상응하는 행동을 추천하는 등 상관관계를 통한 인사이트 도출이 점점 확산되고 있다.

7가지 빅데이터 활용 기본 테크닉

테크닉 방법
연관규칙 학습(Association rule learning) 어떤 변인 간에 주목할 만한 상관관계가 있는지를 찾아내는 방법 - A를 구매한 사람이 B를 더 많이 사는가?
- 이것을 구매한 사람들이 많이 구매한 물품은?
- 장바구니 분석
- 상품 추천
유형 분석(Classification tree analysis) 새로운 사건이 속할 범주를 찾아 내는 일 - 이 사용자가 어떤 특성을 가진 집단에 속하는가?
- 마케팅에서의 세그멘테이션(세분화)
- 소비자 유형 분류
유전 알고리즘(Genetic algorithms) 최적화가 필요한 문제의 해결책을 자연 선택, 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화시키는 방법 - 최대 시청률을 얻으려면 어떤 프로그램을 어느 시간대에 방송할지 파악
- 최적화된 택배 차량 배치
기계 학습 = 머신러닝(Machine learning) 학습 데이터로부터 학습한 알려진 특성을 활용해 ‘예측’하는 데 초점 - 기존 시청 기록을 바탕으로 시청자가 보유한 영화 중 어떤 영화를 가장 보고 싶어 하는지를 파악
- 넷플릭스의 영화 추천 시스템
회귀분석(Regression analysis) 독립변수를 조작하면서 종속변수가 어떻게 변하는지를 보며 두변인의 관계를 파악 - 구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가?
감정분석(Sentiment analysis) 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석 - 새로운 환불 정책에 대한 고객의 평가는 어떤가?
소셜 네트워크 분석(Social network analysis) 오피니언 리더, 즉 영향력 있는 사람을 찾아낼 수 있으며, 고객 간 소셜 관계를 파악 - 특정인과 다른 사람이 몇 촌 정도의 관계인가?
- 이 사람이 어느 정도 영향력 있는 인플루언서인가?

빅데이터의 위기 요인과 통제 방안

위기 요인 통제 방안
1. 사생활 침해 1. 동의에서 책임으로
- 개인의 사생활 침해 위협을 넘어 사회 · 경제적 위협으로 변형될 수 있음
- 익명화 기술이 발전되고 있으나, 아직 충분하지 않음. 정보가 오용될 때 위협의 크기는 막대함
- 예) 조지 오웰의 <<1984>>에서의 ‘빅브리더’
- 개인정보 제공자의 ‘동의’를 통해 해결하기보다 개인정보 사용자의 ‘책임’으로 해결
2. 책임 원칙 훼손 2. 결과 기반 책임 원칙 고수
- 빅데이터 기반 분석과 예측 기술이 발전하면서 정확도가 증가한 만큼, 분석 대상이 되는 사람들이 예측 알고리즘의 희생양이 될 가능성도 높아짐
- 빅데이터 시스템에 의해 부당하게 피해 보는 상황을 최소화할 장치 마련 필요
- 예) 영화 <마이너리티 리포트>
- 특정인의 ‘성향’에 따라 처벌하는 것이 아닌 ‘행동 결과’를 보고 처벌
- 신용카드 발급 여부 판단에 있어 불이익을 배제
3. 데이터 오용 3. 알고리즘 접근 허용
- 데이터 과신, 잘못된 지표의 사용으로 인한 잘못된 인사이트를 얻어 비즈니스에 적용할 경우 직접 손실 발생
- 예) 적군의 사망자 수로 전쟁의 승리를 예측하는 오류
- 알고리즘 접근권 보장
- 알고리즈미스트 : 알고리즘에 의해 불이익을 당한 사람들을 대변해 피해자를 구제할 능력을 갖춘 전문가로서, 컴퓨터와 수학, 통계학이나 비즈니스에 두루 깊은 지식을 갖춘 전문가 대두

3. 빅데이터 산업의 이해

데이터 사이언티스트에게 요구되는 역량

  • 하드 스킬(Hard skill)
    • 빅데이터에 대한 이론적 지식 : 관련 기법에 대한 이해와 방법론 습득
    • 분석 기술에 대한 숙련 : 최적의 분석 설계 및 노하우 축적
  • 소프트 스킬(Soft skill)
    • 통찰력 있는 분석 : 창의적 사고, 호기심, 논리적 비판
    • 설득력 있는 전달 : 스토리텔링, 시각화
    • 다분야 간 협력 : 커뮤니케이션

가치 패러다임의 변화

디지털화(Digitalization) - 아날로그 세상을 어떻게 효과적으로 디지털화하는가가 이 시대의 가치를 창출해내는 원천
예) 도스 운영체제, 워드/파워포인트와 같은 오피스 프로그램
연결(Connection) - 디지털화된 정보와 대상들이 서로 연결되어 이 연결이 얼마나 효과적이고 효율적으로 제공되느냐가 이 시대의 성패를 가름
예) 구글의 검색 알고리즘, 네이버의 콘텐츠
에이전시(Agency) - 사물인터넷(IoT)의 성숙과 함께 연결이 증가하고 복잡해짐
- 복잡한 연결을 얼마나 효과적이고 믿을 만하게 관리하는가가 이슈
- 데이터 사이언스의 역량에 따라 좌우

4. 빅데이터 조직 및 인력

분석 준비도 평가

분석 업무 파악 분석 인력 및 조직 분석 기법
- 발생한 사실 분석 업무
- 예측 분석 업무
- 시뮬레이션 분석 업무
- 최적화 분석 업무
- 분석 업무 정기적 개선
- 분석전문가 직무 존재
- 분석전문가 교육 훈련프로그램
- 관리자 기본 분석 능력
- 전사총괄조직
- 경영진 분석 업무 이해
- 업무별 적합한 분석 기법 사용
- 분석 업무 도입 방법론
- 분석 기법 라이브러리
- 분석 기법 효과성 평가
- 분석 기법 정기적 개선
분석 데이터 분석 문화 IT 인프라
- 분석 업무를 위한 데이터
충분성/ 신뢰성/ 적시성
- 비구조적 데이터 관리
- 외부데이터 활용 체계
- 기준 데이터 관리(MDM)
- 사실에 근거한 의사결정
- 관리자의 데이터 중시
- 회의 등에서 데이터 활용
- 경영진 직관보다 데이터 활용
- 데이터 공유 및 협업 문화
- 운영시스템 데이터 통합
- EAI, ETL 등 데이터 유통체계
- 분석 전용 서버 및 스토리지
- 빅데이터/ 통계/ 비주얼 분석환경

분석 성숙도 평가

단계 내용 비즈니스 부문 조직 · 역량 부문 IT 부문
[1단계] 도입 분석 시작,
환경과 시스템 구축
- 실적 분석 및 통계
- 정기 보고 수행
- 운영 데이터 기반
- 일부 부서에서 수행
- 담당자 역량에 의존
- 데이터 웨어하우스
- 데이터 마트
- ETL/ EAI
- OLAP
[2단계] 활용 분석 결과를 업무에 적용 - 미래결과 예측
- 시뮬레이션
- 운영 데이터 기반
- 전문 담당 부서 수행
- 분석 기법 도입
- 관리자가 분석 수행
- 실시간 대시보드
- 통계분석 환경
[3단계] 확산 전사 차원에서 분석 관리, 공유 - 전사성과 실시간 분석
- 프로세스 혁신 3.0
- 분석규칙 관리
- 이벤트 관리
- 전사 모든 부서 수행
- 분석 COE 운영
- 데이터 사이언티스트 확보
- 빅데이터 관리 환경
- 시뮬레이션 · 최적화
- 비주얼 분석
- 분석 전용 서버
[4단계] 최적화 분석을 진화시켜 혁신 및 성과 향상에 기여 - 외부 환경 분석 활용
- 최적화 업무 적용
- 실시간 분석
- 비즈니스 모델 진화
- 데이터 사이언스 그룹
- 경영진 분석 활용
- 전략 연계
- 분석 협업환경
- 분석 SandBox
- 프로세스 내재화
- 빅데이터 분석

분석준비도 및 성숙도 진단 결과를 4분면으로 구분

분석 조직 유형

02_ 빅데이터 기술 및 제도

학습목표

  • 빅데이터 플랫폼의 개념과 빅데이터 에코시스템을 구성하고 있는 개별 요소들의 기능에 대해 이해한다.
  • 인공지능과 마이데이터의 배경과 그 내용에 대해 알아본다.

1. 빅데이터 플랫폼

빅데이터 플랫폼 개념도

에코시스템

빅데이터는 수집, 정제, 적재, 분석, 시각화의 여러 단계를 거치는데, 이 단계를 거치는 동안 여러 가지 기술 및 프레임워크, 솔루션 등을 이용해 플랫폼을 완성하게 된다. 바로 이 기술 및 프레임워크, 솔루션 등을 통틀어 빅데이터 에코시스템(Big Data Ecosystem)이라고 한다. Google, IBM, Amazon, Oracle 등은 직접 개발한 여러 솔루션을 하나로 묶어 빅데이터 생태계, 즉 에코시스템을 구축하고 있다.

2. 빅데이터와 인공지능

머신러닝과 딥러닝의 차이

머신러닝은 데이터를 분석하고, 분석한 후에 그 데이터를 바탕으로 결정을 내리기 위해 학습한 내용을 적용하는 알고리즘을 말한다. 딥러닝은 카테고리 상으로는 머신러닝에 포함된 개념이지만, 실제로는 딥러닝 기술이 훨씬 더 진보적이다. 딥러닝은 예측의 정확성 여부를 스스로 판단하고 결정을 내린다. 딥러닝은 인간이 결론을 내리는 방식과 유사한 논리 구조로 데이터를 엄청나게 빠른 속도로 분석하여 결과를 도출해낸다. 이런 분석 기술을 인공신경망 분석 기술이라고 부른다.

미래의 인공지능 활용 분야

자율주행 - 우리나라 자동차 반자율주행에서 완전자율주행으로 기술 발전
- 자율주행차 신규 제조업체 등장 예상
- 자율주행 보험 및 여행 서비스 등장
스마트 홈 - 스마트 가전으로 편리한 생활
- 공간 지능화로 노인 케어 방식 변화
메디컬 케어 - 바이탈데이터 및 유전자 정보 활용 건강 관리
- 의료진 대상 지적 도우미 서비스 등장
- 우리나라 원격진료의 경우 관련법 개정 및 정책 지원이 필요
인프라 - 우리나라 공공 스마트 사업 본격화
- 전력, 수도, 가스 등의 자동 조절
- 다리, 발전소 등 공공인프라 이상 감지
스마트 농업 - 농업의 대형화 및 자동화
- 농작업 자동화 및 드론 이용 정밀 농업
- AI 기반 기상 예측 및 농업 보험 등장
업무 환경 변화 - 서류 관리 및 데이터 분석 등 자동화 전문 업무에 AI 도입 활발(법률, 번역)
- 음성 인식 관련 기술 발전 및 관련 산업 확대
자율 배송, 유통 - 자율 화물배송, 무인화물선, 드론 배달
- 물류 창고 내 AI 로봇 이용
커머스 - 무인 점포, 얼굴 인식으로 추천 서비스
- 구매 데이터 분석으로 맞춤형 광고 제공
스마트 교육 - 학생별 맞춤형 교육 콘텐츠 제공
- AI 기반 대학 커리큘럼 설계 지원
AI 기반 금융 - 주식, 투자 상품의 로봇 어드바이저 신용 평가, 대출, 금융상품 지원 업무
안전 보장 로봇 - 재해 지역 구조 활동
- 극한 환경에서 자율 행동 가능
인텔리전스 시큐리티 - 빅데이터 분석에 따른 범죄 예측/예방
- 행동 분석으로 이상 행동 사전 감지

3. 개인정보 활용 ‘마이데이터’

‘마이데이터(Mydata)’ 운동의 확산

마이데이터 운동은 정보의 주체가 개인정보 권한을 갖고 관리할 수 있게 하자는 취지다. 2015년 브뤼셀에서 처음 시작된 이 운동은 유럽을 거쳐 전 세계로 확산되었다. 마이뎅터 기구(mydata.org) 사이트에서 이들의 선언문(declaration)을 보면 그 취지를 잘 알 수 있다. 마이데이터 선언문에는 ‘이 선언에서 제시하는 변화와 원친은 균형을 회복하고 개인 정보에 대한 인간 중심의 비전을 향해 나아가는 것을 목표로 한다’고 명시되어 있다. 그리고 이것은 ‘공정하고 지속 가능하며 번영하는 디지털 사회의 조건’이라고 말한다.

마이데이터 개념

종전 ‘동의’ 제도와 마이데이터의 ‘동의’ 제도

업권별 마이데이터 서비스 예시

4. 개인정보보호 법 · 제도

출처

Share