首页 技术 正文
技术 2022年11月7日
0 收藏 492 点赞 1,115 浏览 1845 个字

下载Pig 能够执行在Hadoop 0.20.*

http://mirror.bit.edu.cn/apache/pig/pig-0.11.1/pig-0.11.1.tar.gz

也能够依据你的Hadoop版本号选择相应的版本号下载:http://hadoop.apache.org/pig/releases.html

我当前的Hadoop 版本号是 hadoop-0.20.2 

tar -xvf pig-0.11.1.tar.gz

为了方便,能够把Pig的程序文件夹放到命令行路径里。比方:

% export PIG_INSTALL=/usr/local/hadoop/pig-0.11.1

% export PATH=$PATH:$PIG_INSTALL/bin

Pig有两种模式:

一种是Local mode,也就是本地模式,这样的模式下Pig执行在一个JVM里,訪问的是本地的文件系统。仅仅适合于小规模数据集,通常是用来体验Pig。

并且,它并没实用到Hadoop的Local runner,Pig把查询转换为物理的Plan,然后自己去执行。

在终端下输入

% pig -x local

就能够进入Local模式了。

另一种就是Hadoop模式了,这样的模式下。Pig才真正的把查询转换为相应的MapReduce Jobs,并提交到Hadoop集群去执行。集群能够是真实的分布式也能够是伪分布式。要想Pig能认识Hadoop。你要告诉它Hadoop的版本号以及一些关键daemon的信息(也就是Namenode和Jobtracker的Address和Port)。

比方,以下这个能够同意Pig连接到不论什么Hadoop0.20.*上:

% export PIG_HADOOP_VERSION=20

接下来,你还要指明集群的Namenode和Jobtracker的所在。有两种方法,一种就是把你Hadoop的Conf地址加入到Pig的Classpath上:

% export PIG_CLASSPATH=$HADOOP_INSTALL/conf/

另一种就是在Pig文件夹的Conf文件夹(可能须要自己创建)里创建一个pig.properties文件,然后在里面加入集群的Namenode和Jobtracker的信息:

fs.default.name=hdfs://idc01-vm-test-124/

#依据您的Hadoop配置进行设置

mapred.job.tracker=idc01-vm-test-124:9000

接下来执行PIG

[root@idc01-vm-test-124 conf]# pig

2014-04-19 20:13:15,775 [main] INFO  org.apache.pig.Main – Apache Pig version 0.10.0-cdh4.1.2 (rexported) compiled Nov 01 2012, 18:38:58

2014-04-19 20:13:15,776 [main] INFO  org.apache.pig.Main – Logging error messages to: /usr/local/hadoop/pig-0.11.1/conf/pig_1397909595772.log

2014-04-19 20:13:16,009 [main] INFO  org.apache.pig.backend.hadoop.executionengine.HExecutionEngine – Connecting to hadoop file system at: file:///

2014-04-19 20:13:16,014 [main] WARN  org.apache.hadoop.conf.Configuration – fs.default.name is deprecated. Instead, use fs.defaultFS

2014-04-19 20:13:16,227 [main] INFO  org.apache.pig.backend.hadoop.executionengine.HExecutionEngine – Connecting to map-reduce job tracker at: localhost:9016

2014-04-19 20:13:16,229 [main] WARN  org.apache.hadoop.conf.Configuration – fs.default.name is deprecated. Instead, use fs.defaultFS

grunt> 

相关推荐
python开发_常用的python模块及安装方法
adodb:我们领导推荐的数据库连接组件bsddb3:BerkeleyDB的连接组件Cheetah-1.0:我比较喜欢这个版本的cheeta…
日期:2022-11-24 点赞:878 阅读:9,075
Educational Codeforces Round 11 C. Hard Process 二分
C. Hard Process题目连接:http://www.codeforces.com/contest/660/problem/CDes…
日期:2022-11-24 点赞:807 阅读:5,551
下载Ubuntn 17.04 内核源代码
zengkefu@server1:/usr/src$ uname -aLinux server1 4.10.0-19-generic #21…
日期:2022-11-24 点赞:569 阅读:6,399
可用Active Desktop Calendar V7.86 注册码序列号
可用Active Desktop Calendar V7.86 注册码序列号Name: www.greendown.cn Code: &nb…
日期:2022-11-24 点赞:733 阅读:6,176
Android调用系统相机、自定义相机、处理大图片
Android调用系统相机和自定义相机实例本博文主要是介绍了android上使用相机进行拍照并显示的两种方式,并且由于涉及到要把拍到的照片显…
日期:2022-11-24 点赞:512 阅读:7,811
Struts的使用
一、Struts2的获取  Struts的官方网站为:http://struts.apache.org/  下载完Struts2的jar包,…
日期:2022-11-24 点赞:671 阅读:4,893