远程监督:使用未标注语料做关系抽取
1. 背景:
关系抽取(某个人是否属于某个组织等)
关系抽取中使用的3种方法:
a) 监督学习
优点:准确率很高
缺点:1.手工标注金标语料代价昂贵,时间金钱上需要很大的开销,并且数量受限,得不到大量的训练数据; 2.领域受限,标注都是在一个特定的语料中,训练的系统受限于那个领域
b) 无监督学习。 优点:可以使用大规模的数据,抽取出大量的关系
缺点:抽取的结果往往比较难映射到特定的知识库
c) Bootstrap learning,往往有低准确率的问题。
d) 远程监督 使用知识库(freebase)来获取weekly labeled training data。、特点:相比监督学习,使用知识库提供训练数据来取代人工标注获取训练数据,没有过拟合的问题和领域依赖的问题;比起无监督,不用解决聚类结果到关系的映射问题,并且使用大规模的训练数据可以得到丰富的特征。
2. 方法介绍
训练阶段
使用 named entity tagge标注 persons organizations 和 locations;
对在freebase中出现的实体对提取特征,构造训练数据;
训练多类别逻辑斯特回归模型。
测试阶段:
使用 named entity tagge标注 persons organizations 和 locations
在句子中出现的每对实体都被考虑做为一个潜在的关系实例,作为测试数据
使用训练后的模型对实体对分类。
3. 特征选择
3.1. 词汇特征:
a) 两个实体中间的词序列b) 这些词的词性标记 c) 标志位表示哪个实体出现在前面 d) 大小为k的左窗口 e) 大小为k的右窗口。
3.2. 句法特征:
a) 两个实体之间的最短依存路径;b) 两个实体的左右窗口。
3.3. 命名实体tag特征:
人名、地名、组织名和其他
4. 其他
连接特征来丢进多类逻辑斯特回归模型。
负例构造:随机选取不在freebase中的实体对(有错误的可能)
5.原文及我的全文翻译
可向我索要