[빅데이터분석기사]빅데이터의 이해
*빅데이터(Big Data)의 개념
- 빅데이터는 믹대한 양(수십 테라바이트 이상)의 정형 및 비정형 데이터이다.
- 데이터로부터 가치를 추출하고 결과를 분석하는 기술의 의미
- 데이터에서부터 가치를 추출하는 것은 통찰, 지혜를 얻는 과정으로 DIKW피라미드로 표현할 수 있다
*DIKW 피라미드
지혜(wisdom) - 근본원리에 대한 깊은 이해를 바탕으로 도출되는 창의적인 아이디어
ex) A사이트의 다른 상품들도 B사이트보다 저렴할 것으로 판단
지식(Knowledge) - 유의미한 정보로 분류하고 일반화시킨 결과물, 정보에 기반해 찾아진 규칙
ex) A사이트가 더 싸게 팔기 떄문에 X책을 구입할 계획
정보(Information) - 가공처리해서 데이터간의 연관관계와 함께 의미가 도출된 데이터
ex) X책을 A사이트에서 더 싸게 판매중이다
데이터(Data) - 가공하기 전의 순수한 데이터
ex) X책을 A사이트에서 3,000원, B사이트에서 3,500원에 판매
*빅데이터 특징
7V
규모(Volume)
다양성(Variety)
속도(Velocity)
신뢰성(Veracity)
가치(Value)
정확성(Validity)
휘발성(Volatility)
*빅데이터의 유형(데이터 구조적 관점)
- 정형 데이터 : 정형화된 스키마구조,DBMS에 내용이 저장될 수 있는 구조, 고정된 필드(속성)에 저장된 데이터
ex) 관계형 데이터베이스(Oracle, MS-SQL등)
-반정형 데이터 : 데이터 내부의 데이터 구조에 대한 메타 정보가 포함된 구조
ex) XML, HTML, JSON 등
- 비정형 데이터 : 수집 데이터 각각이 데이터 객체로 구분
ex) 텍스트 문서,이진파일 이미지, 동영상