Hive- 大数据仓库Hive

攻城狮司翰技术 2022年11月8日

0 收藏 517 点赞 1,551 浏览 822 个字

什么是 Hive？

Hive 是由 FaceBook 开源用于解决少量数据结构化日志的数据统计。Hive是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射成一张表，并提供类SQL查询功能。Hive 处理的数据存储在 HDFS 上，分析数据的底层实现是 MapReduce ，执行程序运行的是YARN。

构建在Hadoop之上的数据仓库：

　　使用 HQL 作为查询接口

　　使用 HDFS 存储

　　使用 MapReduce 计算

本质是：将 HQL 转化成 MapReduce 程序

Hive架构

用户接口:Client

CLI（hive shell）、JDBC/ODBC（Java访问hive），WEBUI（浏览器访问hive）

元数据：Metastore

元数据包括：表名、表所属的数据库（默认是default）、表的拥有者、列/分区字段、表的类型（是否是外部表）、表的数据所在目录等。

默认存储在自带的derby数据库中，推荐采用MySQL存储Metastore

Hadoop

使用HDFS进行存储，使用MapReduce进行计算

驱动器：Driver

包含：解析器、编译器、优化器、执行器

解析器：将SQL字符串转换成抽象语法AST，这一步地般用第三方工具完成，比如antlr，对AST进行语法分析，比如表是否存在、字段是否存在、主义是否有误（比如select 中被判定为聚合的字段在group by中是否出现）

编译器：将AST编译生成逻辑执行计划

优化器：对逻辑执行语计划进行优化

执行器:把逻辑执行计划转换成可以运行的物理计划。对于Hive 来说，就是MR/TEZ/Spark

Hive的使用场景

数据的离线处理：比如：日志分析，海量结构化数据离线分析…

Hive的执行延迟比较高，因此hive常用于数据分析的，对实时性要求不高的场合

Hive优势在于处理大数据，对于处理小数据没有优势，因为hive的执行延迟比较高

Hive 将元数据存储在数据库中(metastore)，目前只支持 mysql、derby。

字段数据离线结构化计划

攻城狮司翰

贡献者

上一篇： Java中的并发工具类：CountDownLatch、CyclicBarrier和Semaphore

下一篇： Tomcat_异常_03_Tomcat日志（Logger）中文乱码

相关推荐

python开发_常用的python模块及安装方法

adodb：我们领导推荐的数据库连接组件bsddb3：BerkeleyDB的连接组件Cheetah-1.0：我比较喜欢这个版本的cheeta…

程序员润宾技术

日期：2022-11-24 点赞：878 阅读：9,087

Educational Codeforces Round 11 C. Hard Process 二分

C. Hard Process题目连接：http://www.codeforces.com/contest/660/problem/CDes…

程序员春广技术

日期：2022-11-24 点赞：807 阅读：5,562

下载Ubuntn 17.04 内核源代码

zengkefu@server1:/usr/src$ uname -aLinux server1 4.10.0-19-generic #21…

程序员峰军技术

日期：2022-11-24 点赞：569 阅读：6,412

可用Active Desktop Calendar V7.86 注册码序列号

可用Active Desktop Calendar V7.86 注册码序列号Name: www.greendown.cn Code: &nb…

程序员天赐技术

日期：2022-11-24 点赞：733 阅读：6,185

Android调用系统相机、自定义相机、处理大图片

Android调用系统相机和自定义相机实例本博文主要是介绍了android上使用相机进行拍照并显示的两种方式，并且由于涉及到要把拍到的照片显…

程序员爱鹏技术

日期：2022-11-24 点赞：512 阅读：7,821

Struts的使用

一、Struts2的获取　　Struts的官方网站为：http://struts.apache.org/　　下载完Struts2的jar包,…

程序员红卫技术

日期：2022-11-24 点赞：671 阅读：4,905

什么是 Hive？

Hive架构

Hive的使用场景

个人收藏笔记记录

开通VIP