하둡의 질의표준 hive 하이브 정의 및 역할정리
- 하이브는 하둡(오픈소스 프로젝트 중 하나였던)의 페타바이트 데이터를 다루는 SQL 질의의 표준
- 하둡을 웨어하우스 구조와 비슷하게 사용할 수 있도록 하둡분산파일 시스템인 HDFS(Hadoop Distributed File System) 의 데이터를 SQL로 접근할 수 있도록한 질의
-하이브의 질의언어는 HQL(Hive Query Language)라고 한다. 관계형 데이터 베이스의 표준 SQL과 문법이 비슷하다
- HQL은 더 좋은 성능을 얻기위해 맵리듀스,스파크,테즈 등 여러 컴퓨팅 프레임워크에서 동작할 수 있다
- 하이브의 데이터구조 : 테이블(table),파티션(partition),버킷(bucket)
-하이브 데이터포맷 : timestamp, string, float, boolean, decimal, double, int, smallint, bigint 등 원시데이터 포맷 대부분 지원
- 하이브 데이터타입 : union , struct, map, array 지원
-하이브는 HDFS 데이터에 애드혹 질의(동적 질의)할 수 있다
-하이브는 메타데이터 관리,인증,질의 최적화에 대해 정의된 아키텍처를 소유한다
*인증 : 커버로스 (kerberos),LDAP방식 이용
-하이브는 SerDes와 I/O포맷을 사용해 임의의 포맷데이터를 읽을 수 있다
*SerDes란 : Serializer Deserializer의 약자로 직렬을 병렬로 전송하는 방식
-하이브는 많은 데이터 집합에서 동일한 타입의 질의응답시간이 다른 타입의 질의응답 시간보다 훨씬 빠르다
**원문출처:하이브핵심정리 기반으로 정리한 요약임