首页 技术 正文
技术 2022年11月8日
0 收藏 517 点赞 1,551 浏览 822 个字

什么是 Hive?

Hive 是由 FaceBook 开源用于解决少量数据结构化日志的数据统计。Hive是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射成一张表,并提供类SQL查询功能。Hive 处理的数据存储在 HDFS 上,分析数据的底层实现是 MapReduce ,执行程序运行的是YARN。

构建在Hadoop之上的数据仓库:

  使用 HQL 作为查询接口

  使用 HDFS 存储

  使用 MapReduce 计算

本质是:将 HQL 转化成 MapReduce 程序

Hive架构

用户接口:Client

CLI(hive shell)、JDBC/ODBC(Java访问hive),WEBUI(浏览器访问hive)

元数据:Metastore

元数据包括:表名、表所属的数据库(默认是default)、表的拥有者、列/分区字段、表的类型(是否是外部表)、表的数据所在目录等。

默认存储在自带的derby数据库中,推荐采用MySQL存储Metastore

Hadoop

使用HDFS进行存储,使用MapReduce进行计算

驱动器:Driver

包含:解析器、编译器、优化器、执行器

解析器:将SQL字符串转换成抽象语法AST,这一步地般用第三方工具完成,比如antlr,对AST进行语法分析,比如表是否存在、字段是否存在、主义是否有误(比如select 中被判定为聚合的字段在group by中是否出现)

编译器:将AST编译生成逻辑执行计划

优化器:对逻辑执行语计划进行优化

执行器:把逻辑执行计划转换成可以运行的物理计划。对于Hive 来说,就是MR/TEZ/Spark

Hive的使用场景

数据的离线处理:比如:日志分析,海量结构化数据离线分析…

Hive的执行延迟比较高,因此hive常用于数据分析的,对实时性要求不高的场合

Hive优势在于处理大数据,对于处理小数据没有优势,因为hive的执行延迟比较高

Hive 将元数据存储在数据库中(metastore),目前只支持 mysql、derby。

相关推荐
python开发_常用的python模块及安装方法
adodb:我们领导推荐的数据库连接组件bsddb3:BerkeleyDB的连接组件Cheetah-1.0:我比较喜欢这个版本的cheeta…
日期:2022-11-24 点赞:878 阅读:9,087
Educational Codeforces Round 11 C. Hard Process 二分
C. Hard Process题目连接:http://www.codeforces.com/contest/660/problem/CDes…
日期:2022-11-24 点赞:807 阅读:5,562
下载Ubuntn 17.04 内核源代码
zengkefu@server1:/usr/src$ uname -aLinux server1 4.10.0-19-generic #21…
日期:2022-11-24 点赞:569 阅读:6,412
可用Active Desktop Calendar V7.86 注册码序列号
可用Active Desktop Calendar V7.86 注册码序列号Name: www.greendown.cn Code: &nb…
日期:2022-11-24 点赞:733 阅读:6,185
Android调用系统相机、自定义相机、处理大图片
Android调用系统相机和自定义相机实例本博文主要是介绍了android上使用相机进行拍照并显示的两种方式,并且由于涉及到要把拍到的照片显…
日期:2022-11-24 点赞:512 阅读:7,821
Struts的使用
一、Struts2的获取  Struts的官方网站为:http://struts.apache.org/  下载完Struts2的jar包,…
日期:2022-11-24 点赞:671 阅读:4,905