[ML] 데이터 이해와 데이터 시각화
Week#2 / Video / Reference: Prof.Choi
The background of Big Data
- Harmony of Technology: 통신 속도 up, 클라우드 용량 up, IoT, 데이터 패턴 분석, 인공지능 발전
- 모두가 연결된 세상 → 데이터 축적 → 데이터 기반 의사결정의 시발점 → 데이터 대 폭발
Big Data changes the world
- Paradigm Shifts (기술 → 가격 → 기회: 데이터로 유저 추출)
Data Analysis
- 넘치는 데이터를 관리하기 위해 똑똑한 기계를 만들자 → Machine Learning
- Automation 의 과정
- 산업혁명: 물건 생산 → 육체노동 기계로 자동화
- 머신러닝: 정보 추출 → 정신노동 기계로 자동화
Data examples
- 배추 값 예측을 위한 데이터
- 남녀 분류를 위한 신체 데이터
- 통신사 고객 이탈 예측
데이터를 어떻게 모을 것인가?
모아진 데이터를 가지고 어떤 의미 있는 분석을 할 것인가?
Importance of Data visualization
-
정의: 광범위하게 분산된 방대한 데이터 분석 → 한눈에 볼 수 있도록 도표/차트 등으로 정리.
-
효과
- 시간 절감 → 즉각적 상황 판단 가능
- 흥미 유발, 정보의 빠른 확산 촉진
- 자료 기억에 도움
-
그래픽 의미를 이용해 명확하게, 효과적으로 정보를 Communicate 하기 위함
-
데이터 (≠ 정보)
- 기초자료. raw함
- 정보를 만들기 위한 원자재 (분석 대상)
-
정보
- 그 자체만으로 유의미
- 서로 다른 데이터 간의 의미있는 일정 패턴 가시화
-
인포그래픽: 중요 정보를 한 장의 그래픽으로 표현
Data visualization Process
- MS Excel: 누구나 쉽게 생성 (Graph, Chart), 심도 있는 분석에는 사용 X
- Google Charts: 빠른 속도, 모바일, 위자드 툴 제공, 스프레드시트/API 사용 가능
- D3.js: 데이터 시각화 Framework. javascript로 개발. HTML, SCG, CSS로 시각화
- python
- 대규모 데이터 계산
- less code, more function
- 데이터 탐색 단계에서 효과적