首页 技术 正文
技术 2022年11月14日
0 收藏 968 点赞 3,370 浏览 3346 个字

Hive是一种构建在Hadoop上的数据仓库,Hive把SQL查询转换为一系列在Hadoop集群中运行的MapReduce作业,是MapReduce更高层次的抽象,不用编写具体的MapReduce方法。Hive将数据组织为表,这就使得HDFS上的数据有了结构,元数据即表的模式,都存储在名为metastore的数据库中。

可以在hive的外壳环境中直接使用dfs访问hadoop的文件系统命令。

Hive可以允许用户编写自己定义的函数UDF,来在查询中使用。Hive中有3种UDF:

UDF:操作单个数据行,产生单个数据行;

UDAF:操作多个数据行,产生一个数据行。

UDTF:操作一个数据行,产生多个数据行一个表作为输出。

用户构建的UDF使用过程如下:

第一步:继承UDF或者UDAF或者UDTF,实现特定的方法。

第二步:将写好的类打包为jar。如hivefirst.jar.

第三步:进入到Hive外壳环境中,利用add jar /home/hadoop/hivefirst.jar.注册该jar文件

第四步:为该类起一个别名,create temporary function mylength as ‘com.whut.StringLength’;这里注意UDF只是为这个Hive会话临时定义的。

第五步:在select中使用mylength();

自定义UDF

12345678910111213141516171819202122232425 package whut;import org.apache.commons.lang.StringUtils;import org.apache.hadoop.hive.ql.exec.UDF;import org.apache.hadoop.io.Text;//UDF是作用于单个数据行,产生一个数据行//用户必须要继承UDF,且必须至少实现一个evalute方法,该方法并不在UDF中//但是Hive会检查用户的UDF是否拥有一个evalute方法public class Strip extends UDF{    private Text result=new Text();    //自定义方法    public Text evaluate(Text str)    {      if(str==null)        return null;        result.set(StringUtils.strip(str.toString()));        return result;    }    public Text evaluate(Text str,String stripChars)    {        if(str==null)            return null;        result.set(StringUtils.strip(str.toString(),stripChars));        return result;    }}

注意事项:

1,一个用户UDF必须继承org.apache.hadoop.hive.ql.exec.UDF;

2,一个UDF必须要包含有evaluate()方法,但是该方法并不存在于UDF中。evaluate的参数个数以及类型都是用户自己定义的。在使用的时候,Hive会调用UDF的evaluate()方法。

自定义UDAF

该UDAF主要是找到最大值

123456789101112131415161718192021222324252627282930313233343536373839404142434445 package whut;import org.apache.hadoop.hive.ql.exec.UDAF;import org.apache.hadoop.hive.ql.exec.UDAFEvaluator;import org.apache.hadoop.io.IntWritable;//UDAF是输入多个数据行,产生一个数据行//用户自定义的UDAF必须是继承了UDAF,且内部包含多个实现了exec的静态类public class MaxiNumber extends UDAF{    public static class MaxiNumberIntUDAFEvaluator implements UDAFEvaluator{        //最终结果        private IntWritable result;        //负责初始化计算函数并设置它的内部状态,result是存放最终结果的        @Override        public void init() {            result=null;        }        //每次对一个新值进行聚集计算都会调用iterate方法        public boolean iterate(IntWritable value)        {            if(value==null)                return false;            if(result==null)              result=new IntWritable(value.get());            else              result.set(Math.max(result.get(), value.get()));            return true;        }                                                                                                                                          //Hive需要部分聚集结果的时候会调用该方法        //会返回一个封装了聚集计算当前状态的对象        public IntWritable terminatePartial()        {            return result;        }        //合并两个部分聚集值会调用这个方法        public boolean merge(IntWritable other)        {            return iterate(other);        }        //Hive需要最终聚集结果时候会调用该方法        public IntWritable terminate()        {            return result;        }    }}

注意事项:

1,用户的UDAF必须继承了org.apache.hadoop.hive.ql.exec.UDAF;

2,用户的UDAF必须包含至少一个实现了org.apache.hadoop.hive.ql.exec的静态类,诸如常见的实现了 UDAFEvaluator。

3,一个计算函数必须实现的5个方法的具体含义如下:

init():主要是负责初始化计算函数并且重设其内部状态,一般就是重设其内部字段。一般在静态类中定义一个内部字段来存放最终的结果。

iterate():每一次对一个新值进行聚集计算时候都会调用该方法,计算函数会根据聚集计算结果更新内部状态。当输入值合法或者正确计算了,则就返回true。

terminatePartial():Hive需要部分聚集结果的时候会调用该方法,必须要返回一个封装了聚集计算当前状态的对象。

merge():Hive进行合并一个部分聚集和另一个部分聚集的时候会调用该方法。

terminate():Hive最终聚集结果的时候就会调用该方法。计算函数需要把状态作为一个值返回给用户。

4,部分聚集结果的数据类型和最终结果的数据类型可以不同。

相关推荐
python开发_常用的python模块及安装方法
adodb:我们领导推荐的数据库连接组件bsddb3:BerkeleyDB的连接组件Cheetah-1.0:我比较喜欢这个版本的cheeta…
日期:2022-11-24 点赞:878 阅读:9,088
Educational Codeforces Round 11 C. Hard Process 二分
C. Hard Process题目连接:http://www.codeforces.com/contest/660/problem/CDes…
日期:2022-11-24 点赞:807 阅读:5,564
下载Ubuntn 17.04 内核源代码
zengkefu@server1:/usr/src$ uname -aLinux server1 4.10.0-19-generic #21…
日期:2022-11-24 点赞:569 阅读:6,412
可用Active Desktop Calendar V7.86 注册码序列号
可用Active Desktop Calendar V7.86 注册码序列号Name: www.greendown.cn Code: &nb…
日期:2022-11-24 点赞:733 阅读:6,185
Android调用系统相机、自定义相机、处理大图片
Android调用系统相机和自定义相机实例本博文主要是介绍了android上使用相机进行拍照并显示的两种方式,并且由于涉及到要把拍到的照片显…
日期:2022-11-24 点赞:512 阅读:7,822
Struts的使用
一、Struts2的获取  Struts的官方网站为:http://struts.apache.org/  下载完Struts2的jar包,…
日期:2022-11-24 点赞:671 阅读:4,905