首页 技术 正文
技术 2022年11月16日
0 收藏 943 点赞 4,614 浏览 1086 个字

Distant Supervision for relation extraction without labeled data

远程监督:使用未标注语料做关系抽取

1. 背景:

关系抽取(某个人是否属于某个组织等)

    关系抽取中使用的3种方法:

a) 监督学习

优点:准确率很高

缺点:1.手工标注金标语料代价昂贵,时间金钱上需要很大的开销,并且数量受限,得不到大量的训练数据; 2.领域受限,标注都是在一个特定的语料中,训练的系统受限于那个领域

b) 无监督学习

优点:可以使用大规模的数据,抽取出大量的关系

缺点:抽取的结果往往比较难映射到特定的知识库

c) Bootstrap learning

往往有低准确率的问题。

d) 远程监督

使用知识库(freebase)来获取weekly labeled training data。

特点:相比监督学习,使用知识库提供训练数据来取代人工标注获取训练数据,没有过拟合的问题和领域依赖的问题;比起无监督,不用解决聚类结果到关系的映射问题,并且使用大规模的训练数据可以得到丰富的特征。

2. 方法介绍

    基本假设: 如果两个实体是某个关系的参与者,任意的一个包含这两个实体的句子都可能表达了这个关系。

训练阶段

    1. 使用 NET(named entity tagger)标注 persons organizations 和 locations;
    2. 对在freebase中出现的实体对提取特征,构造训练数据;
    3. 训练多类别逻辑斯特回归模型。

测试阶段:

    1. 使用 NET(named entity tagger)标注 persons organizations 和 locations
    2. 在句子中出现的每对实体都被考虑做为一个潜在的关系实例,作为测试数据
    3. 使用训练后的模型对实体对分类。

3. 特征选择

3.1. 词汇特征:

a) 两个实体中间的词序列;

b) 这些词的词性标记;

c) 标志位表示哪个实体出现在前面;

d) 大小为k的左窗口;

e) 大小为k的右窗口。

3.2. 句法特征:

a) 两个实体之间的最短依存路径;

b) 两个实体的左右窗口。

3.3. 命名实体tag特征:

人名、地名、组织名和其他

4. 其他注意的地方

连接特征来丢进多类逻辑斯特回归模型。

负例构造:随机选取不在freebase中的实体对(有错误的可能)

训练和测试数据构造:freebase中的关系实例一半用来训练,另一半用来测试。数据使用维基百科数据,2:1的训练和测试数据分配。测试时只对在训练时未出现(不属于训练时的freebase中)的实例对分类。

测试结果选择:对所有实体对分类,并对每对实体对分配一个分类结果的置信度。然后对它们的置信度排序,选取top n。

相关推荐
python开发_常用的python模块及安装方法
adodb:我们领导推荐的数据库连接组件bsddb3:BerkeleyDB的连接组件Cheetah-1.0:我比较喜欢这个版本的cheeta…
日期:2022-11-24 点赞:878 阅读:9,000
Educational Codeforces Round 11 C. Hard Process 二分
C. Hard Process题目连接:http://www.codeforces.com/contest/660/problem/CDes…
日期:2022-11-24 点赞:807 阅读:5,512
下载Ubuntn 17.04 内核源代码
zengkefu@server1:/usr/src$ uname -aLinux server1 4.10.0-19-generic #21…
日期:2022-11-24 点赞:569 阅读:6,358
可用Active Desktop Calendar V7.86 注册码序列号
可用Active Desktop Calendar V7.86 注册码序列号Name: www.greendown.cn Code: &nb…
日期:2022-11-24 点赞:733 阅读:6,141
Android调用系统相机、自定义相机、处理大图片
Android调用系统相机和自定义相机实例本博文主要是介绍了android上使用相机进行拍照并显示的两种方式,并且由于涉及到要把拍到的照片显…
日期:2022-11-24 点赞:512 阅读:7,771
Struts的使用
一、Struts2的获取  Struts的官方网站为:http://struts.apache.org/  下载完Struts2的jar包,…
日期:2022-11-24 点赞:671 阅读:4,849