首页 技术 正文
技术 2022年11月20日
0 收藏 921 点赞 3,471 浏览 4796 个字

之前的文章《更高的压缩比,更好的性能–使用ORC文件格式优化Hive》中介绍了Hive的ORC文件格式,它不但有着很高的压缩比,节省存储和计算资源之外,还通过一个内置的轻量级索引,提升查询的性能。这个内置的轻量级索引,就是下面所说的Row Group Index。

其实ORC支持的索引不止这一种,还有一种BloomFilter索引,两者结合起来,更加提升了Hive中基于ORC的查询性能。

说明一下:本文使用Hive2.0.0 + hadoop-2.3.0-cdh5.0.0作为测试环境。表lxw1234_text为text格式保存,总记录数为12000920。

Row Group Index

由之前的文章知道,一个ORC文件包含一个或多个stripes(groups of row data),每个stripe中包含了每个columnmin/max值的索引数据,当查询中有<,>,=的操作时,会根据min/max值,跳过扫描不包含的stripes

而其中为每个stripe建立的包含min/max值的索引,就称为Row Group Index,也叫min-max Index,或者Storage Index。在建立ORC格式表时,指定表参数’orc.create.index’=’true’之后,便会建立Row Group Index,需要注意的是,为了使Row Group Index有效利用,向表中加载数据时,必须对需要使用索引的字段进行排序,否则,min/max会失去意义。另外,这种索引通常用于数值型字段的查询过滤优化上。

看下面的例子:

  1. CREATE TABLE lxw1234_orc2 stored AS ORC
  2. TBLPROPERTIES
  3. (‘orc.compress’=’SNAPPY’,
  4. ‘orc.create.index’=’true’,
  5. ‘orc.bloom.filter.fpp’=’0.05’,
  6. ‘orc.stripe.size’=’10485760’,
  7. ‘orc.row.index.stride’=’10000’)
  8. AS
  9. SELECT CAST(siteid AS INT) AS id,
  10. pcid
  11. FROM lxw1234_text
  12. DISTRIBUTE BY id sort BY id;

直接执行下面的查询(未使用索引):

  1. SELECT COUNT(1) FROM lxw1234_orc1 WHERE id >= 1382 AND id <= 1399;

转:Hive性能优化之ORC索引–Row Group Index vs Bloom Filter Index

很明显,扫描了所有记录。再使用索引查询:

  1. set hive.optimize.index.filter=true;
  2. SELECT COUNT(1) FROM lxw1234_orc1 WHERE id >= 1382 AND id <= 1399;

转:Hive性能优化之ORC索引–Row Group Index vs Bloom Filter Index

可以看到,只扫描了部分记录,即根据Row Group Index中的min/max跳过了WHERE条件中不包含的stripes,索引有效果。

假如有下面的查询:

  1. SET hive.optimize.index.filter=true;
  2. SELECT COUNT(1) FROM lxw1234_orc1 WHERE id >= 0 AND id <= 1000
  3. AND pcid IN (‘0005E26F0DCCDB56F9041C’,’A’);

执行的过程大概是这样的:

先根据Row Group Index中的min/max,判断哪些stripes/file包含在内,接着逐行扫描,过滤pcid IN (‘0005E26F0DCCDB56F9041C’,’A’)的记录。

转:Hive性能优化之ORC索引–Row Group Index vs Bloom Filter Index

可以看到,没有全表扫描,跳过了一部分stripes。这样看来,如果where后面的id范围很大,完全可能会包含所有的文件,再根据pcid过滤时候,又相当于全表扫描了。

对于这种查询场景的优化策略,就是下面的BloomFilter索引。

Bloom Filter Index

之前有篇文章《大数据去重统计之BloomFilter》,介绍过BloomFilter的原理和Java版的例子。Hive的ORC中基于此,提供了BloomFilter索引,用于性能优化。

在建表时候,通过表参数”orc.bloom.filter.columns”=”pcid”来指定为那些字段建立BloomFilter索引,这样,在生成数据的时候,会在每个stripe中,为该字段建立BloomFilter的数据结构,当查询条件中包含对该字段的=号过滤时候,先从BloomFilter中获取以下是否包含该值,如果不包含,则跳过该stripe.

看下面的建表语句,为pcid字段建立BloomFilter索引:

  1. CREATE TABLE lxw1234_orc2 stored AS ORC
  2. TBLPROPERTIES
  3. (‘orc.compress’=’SNAPPY’,
  4. ‘orc.create.index’=’true’,
  5. “orc.bloom.filter.columns”=”pcid”,
  6. ‘orc.bloom.filter.fpp’=’0.05’,
  7. ‘orc.stripe.size’=’10485760’,
  8. ‘orc.row.index.stride’=’10000’)
  9. AS
  10. SELECT CAST(siteid AS INT) AS id,
  11. pcid
  12. FROM lxw1234_text
  13. DISTRIBUTE BY id sort BY id;

然后执行上面的查询:

  1. SET hive.optimize.index.filter=true;
  2. SELECT COUNT(1) FROM lxw1234_orc1 WHERE id >= 0 AND id <= 1000
  3. AND pcid IN (‘0005E26F0DCCDB56F9041C’,’A’);

转:Hive性能优化之ORC索引–Row Group Index vs Bloom Filter Index


您可以关注 lxw的大数据田地 ,或者 加入邮件列表 ,随时接收博客更新的通知邮件。

通过Row Group Index和Bloom Filter Index的双重索引优化,这条语句最终执行,只扫描了60000条记录,大大节省了MapTask的执行时间和资源。

之前的文章《更高的压缩比,更好的性能–使用ORC文件格式优化Hive》中介绍了Hive的ORC文件格式,它不但有着很高的压缩比,节省存储和计算资源之外,还通过一个内置的轻量级索引,提升查询的性能。这个内置的轻量级索引,就是下面所说的Row Group Index。

其实ORC支持的索引不止这一种,还有一种BloomFilter索引,两者结合起来,更加提升了Hive中基于ORC的查询性能。

说明一下:本文使用Hive2.0.0 + hadoop-2.3.0-cdh5.0.0作为测试环境。表lxw1234_text为text格式保存,总记录数为12000920。

Row Group Index

由之前的文章知道,一个ORC文件包含一个或多个stripes(groups of row data),每个stripe中包含了每个columnmin/max值的索引数据,当查询中有<,>,=的操作时,会根据min/max值,跳过扫描不包含的stripes

而其中为每个stripe建立的包含min/max值的索引,就称为Row Group Index,也叫min-max Index,或者Storage Index。在建立ORC格式表时,指定表参数’orc.create.index’=’true’之后,便会建立Row Group Index,需要注意的是,为了使Row Group Index有效利用,向表中加载数据时,必须对需要使用索引的字段进行排序,否则,min/max会失去意义。另外,这种索引通常用于数值型字段的查询过滤优化上。

看下面的例子:

  1. CREATE TABLE lxw1234_orc2 stored AS ORC
  2. TBLPROPERTIES
  3. (‘orc.compress’=’SNAPPY’,
  4. ‘orc.create.index’=’true’,
  5. ‘orc.bloom.filter.fpp’=’0.05’,
  6. ‘orc.stripe.size’=’10485760’,
  7. ‘orc.row.index.stride’=’10000’)
  8. AS
  9. SELECT CAST(siteid AS INT) AS id,
  10. pcid
  11. FROM lxw1234_text
  12. DISTRIBUTE BY id sort BY id;

直接执行下面的查询(未使用索引):

  1. SELECT COUNT(1) FROM lxw1234_orc1 WHERE id >= 1382 AND id <= 1399;

转:Hive性能优化之ORC索引–Row Group Index vs Bloom Filter Index

很明显,扫描了所有记录。再使用索引查询:

  1. set hive.optimize.index.filter=true;
  2. SELECT COUNT(1) FROM lxw1234_orc1 WHERE id >= 1382 AND id <= 1399;

转:Hive性能优化之ORC索引–Row Group Index vs Bloom Filter Index

可以看到,只扫描了部分记录,即根据Row Group Index中的min/max跳过了WHERE条件中不包含的stripes,索引有效果。

假如有下面的查询:

  1. SET hive.optimize.index.filter=true;
  2. SELECT COUNT(1) FROM lxw1234_orc1 WHERE id >= 0 AND id <= 1000
  3. AND pcid IN (‘0005E26F0DCCDB56F9041C’,’A’);

执行的过程大概是这样的:

先根据Row Group Index中的min/max,判断哪些stripes/file包含在内,接着逐行扫描,过滤pcid IN (‘0005E26F0DCCDB56F9041C’,’A’)的记录。

转:Hive性能优化之ORC索引–Row Group Index vs Bloom Filter Index

可以看到,没有全表扫描,跳过了一部分stripes。这样看来,如果where后面的id范围很大,完全可能会包含所有的文件,再根据pcid过滤时候,又相当于全表扫描了。

对于这种查询场景的优化策略,就是下面的BloomFilter索引。

Bloom Filter Index

之前有篇文章《大数据去重统计之BloomFilter》,介绍过BloomFilter的原理和Java版的例子。Hive的ORC中基于此,提供了BloomFilter索引,用于性能优化。

在建表时候,通过表参数”orc.bloom.filter.columns”=”pcid”来指定为那些字段建立BloomFilter索引,这样,在生成数据的时候,会在每个stripe中,为该字段建立BloomFilter的数据结构,当查询条件中包含对该字段的=号过滤时候,先从BloomFilter中获取以下是否包含该值,如果不包含,则跳过该stripe.

看下面的建表语句,为pcid字段建立BloomFilter索引:

  1. CREATE TABLE lxw1234_orc2 stored AS ORC
  2. TBLPROPERTIES
  3. (‘orc.compress’=’SNAPPY’,
  4. ‘orc.create.index’=’true’,
  5. “orc.bloom.filter.columns”=”pcid”,
  6. ‘orc.bloom.filter.fpp’=’0.05’,
  7. ‘orc.stripe.size’=’10485760’,
  8. ‘orc.row.index.stride’=’10000’)
  9. AS
  10. SELECT CAST(siteid AS INT) AS id,
  11. pcid
  12. FROM lxw1234_text
  13. DISTRIBUTE BY id sort BY id;

然后执行上面的查询:

  1. SET hive.optimize.index.filter=true;
  2. SELECT COUNT(1) FROM lxw1234_orc1 WHERE id >= 0 AND id <= 1000
  3. AND pcid IN (‘0005E26F0DCCDB56F9041C’,’A’);

转:Hive性能优化之ORC索引–Row Group Index vs Bloom Filter Index


您可以关注 lxw的大数据田地 ,或者 加入邮件列表 ,随时接收博客更新的通知邮件。

通过Row Group Index和Bloom Filter Index的双重索引优化,这条语句最终执行,只扫描了60000条记录,大大节省了MapTask的执行时间和资源。

相关推荐
python开发_常用的python模块及安装方法
adodb:我们领导推荐的数据库连接组件bsddb3:BerkeleyDB的连接组件Cheetah-1.0:我比较喜欢这个版本的cheeta…
日期:2022-11-24 点赞:878 阅读:8,910
Educational Codeforces Round 11 C. Hard Process 二分
C. Hard Process题目连接:http://www.codeforces.com/contest/660/problem/CDes…
日期:2022-11-24 点赞:807 阅读:5,435
下载Ubuntn 17.04 内核源代码
zengkefu@server1:/usr/src$ uname -aLinux server1 4.10.0-19-generic #21…
日期:2022-11-24 点赞:569 阅读:6,250
可用Active Desktop Calendar V7.86 注册码序列号
可用Active Desktop Calendar V7.86 注册码序列号Name: www.greendown.cn Code: &nb…
日期:2022-11-24 点赞:733 阅读:6,061
Android调用系统相机、自定义相机、处理大图片
Android调用系统相机和自定义相机实例本博文主要是介绍了android上使用相机进行拍照并显示的两种方式,并且由于涉及到要把拍到的照片显…
日期:2022-11-24 点赞:512 阅读:7,693
Struts的使用
一、Struts2的获取  Struts的官方网站为:http://struts.apache.org/  下载完Struts2的jar包,…
日期:2022-11-24 点赞:671 阅读:4,731