首页 技术 正文
技术 2022年11月15日
0 收藏 659 点赞 2,712 浏览 2837 个字

Hadoop+Hive 操作mongodb数据

1、版本概述

hadoop-2.7.3、hive-2.2

下载响应的jar包:http://mvnrepository.com/,直接搜索想要的jar包,例如本次安装需要的:

mongo-hadoop-core-2.0.2.jar、mongo-hadoop-hive-2.0.2.jar、mongo-java-driver-3.2.1.jar

下载自己需要的版本,版本要统一。

2、配置

将下载好的jar包分别上传到hadoop和hive的lib目录下:

Hadoop+Hive 操作mongodb数据

Hadoop+Hive 操作mongodb数据

3、启动hive,加载jar包

进入到hive的家目录下的bin目录,./hive

hive>add jar /data/hadoop-2.7.3/hive-2.2/lib/mongo-hadoop-core-2.0.2.jar;

hive>add  jar  /data/hadoop-2.7.3/hive-2.2/lib/mongo-hadoop-hive-2.0.2.jar;

hive>add  jar   /data/hadoop-2.7.3/hive-2.2/lib/mongo-java-driver-3.2.1.jar;

4、hive操作mongodb方式有两种:

1)MongoDB-based 直接连接hidden节点,使用 com.mongodb.hadoop.hive.MongoStorageHandler做数据Serde
2)BSON-based 将数据dump成bson文件,上传到HDFS系统,使用 com.mongodb.hadoop.hive.BSONSerDe
 
5、mongodb-based:

在命令行直接运行hive:

  1. # hive
  2. hive> CREATE TABLE eventlog (
        > id string,
        > userid string,
        > type string,
        > objid string,
        > time string,
        > source string)
        > STORED BY
    'com.mongodb.hadoop.hive.MongoStorageHandler'
        > WITH
    SERDEPROPERTIES('mongo.columns.mapping'='{"id":"_id"}')
        > TBLPROPERTIES('mongo.uri'='mongodb://user:password@ip:port
    /saturn.users');
  3. 有两种方式来指定所需连接的Mongo Collection。
    1. 在上述示例里面,通过mongo.uri这个表属性来指定,属性的值填入的是MongoDB connection string,通过它来指向具体的collection。这种方式会将这个URI存入表的metadata里面,如果需要填写连接的一些认证信息(如username:password等),该方式不太适合。
    2. 第二种方式是把connection string填入一个properties文件,如:

    # HiveTable.properties
    mongo.input.uri=mongodb://user:password@ip:port /saturn.users'
  4. 然后提供这个文件的路径给mongo.properties.path这个表参数,如

    hive> CREATE EXTERNAL TABLE eventlog (
        > id string,
        > userid string,
        > type string,
        > objid string,
        > time string,
        > source string)
        > STORED BY
    'com.mongodb.hadoop.hive.MongoStorageHandler'
        > WITH
    SERDEPROPERTIES('mongo.columns.mapping'='{"id":"_id"}')
        >
    TBLPROPERTIES('mongo.properties.path'='HiveTable.properties');
  5. hive> select * from eventlog limit 10;
    OK
    5694b8807aff70d36f526a19    NULL  
     NULL    NULL    NULL  
     NULL
    56960a27f95a32ad7e2b9719    NULL  
     NULL    NULL    NULL  
     NULL
    56961da0f95a32ad7e2b971c    NULL  
     NULL    NULL    NULL  
     NULL
    56961eeaf95a32ad7e2b9721    NULL  
     NULL    NULL    NULL  
     NULL
    569735e4837bb8e43e0260b1    NULL  
     NULL    NULL    NULL  
     NULL
    56973672837bb8e43e0260b3    NULL    NULL  
     NULL    NULL    NULL
    56974a73837bb8e43e0260ba    NULL  
     NULL    NULL    NULL  
     NULL
    5697578ff5531e4d74c05db8    NULL  
     NULL    NULL    NULL  
     NULL
    5697894294e366e131643ac5    NULL  
     NULL    NULL    NULL  
     NULL
    56978a5b94e366e131643ac7    NULL    NULL  
     NULL    NULL    NULL
    Time taken: 1.905 seconds, Fetched: 10 row(s)

 它是直接处理mongo里最新的数据.

4)create EXTERNAL table IF NOT EXISTS
outer_table (userid string)
partitioned 
by (ptDate
string)
ROW FORMAT DELIMITED FIELDS TERMINATED 
BY '\t';

如果创建的表是EXTERNAL的,那么在Hive里删除这张表时,不会影响MongoDB里面的数据,只会删除这张表的metadata。如果没有指定EXTERNAL,那么删除表的时候会连带MongoDB里的数据一并删除,因此最好是指定创建的表为EXTERNAL

5)如果你想存到HDFS里也可以,用如下语句就可以。
hive> create table
qsstest as select * from eventlog limit 10;

 

6、  BSON-based方式

参考:

http://blog.csdn.net/tonylee0329/article/details/51648524

http://blog.csdn.net/dr_guo/article/details/51698757

上一篇: Git 代码管理命令
下一篇: Linq之Distinct详解
相关推荐
python开发_常用的python模块及安装方法
adodb:我们领导推荐的数据库连接组件bsddb3:BerkeleyDB的连接组件Cheetah-1.0:我比较喜欢这个版本的cheeta…
日期:2022-11-24 点赞:878 阅读:8,999
Educational Codeforces Round 11 C. Hard Process 二分
C. Hard Process题目连接:http://www.codeforces.com/contest/660/problem/CDes…
日期:2022-11-24 点赞:807 阅读:5,511
下载Ubuntn 17.04 内核源代码
zengkefu@server1:/usr/src$ uname -aLinux server1 4.10.0-19-generic #21…
日期:2022-11-24 点赞:569 阅读:6,357
可用Active Desktop Calendar V7.86 注册码序列号
可用Active Desktop Calendar V7.86 注册码序列号Name: www.greendown.cn Code: &nb…
日期:2022-11-24 点赞:733 阅读:6,140
Android调用系统相机、自定义相机、处理大图片
Android调用系统相机和自定义相机实例本博文主要是介绍了android上使用相机进行拍照并显示的两种方式,并且由于涉及到要把拍到的照片显…
日期:2022-11-24 点赞:512 阅读:7,770
Struts的使用
一、Struts2的获取  Struts的官方网站为:http://struts.apache.org/  下载完Struts2的jar包,…
日期:2022-11-24 点赞:671 阅读:4,848