远程监督：使用未标注语料做关系抽取

1. 背景：

关系抽取（某个人是否属于某个组织等）

关系抽取中使用的3种方法：

a) 监督学习

优点：准确率很高
缺点：1.手工标注金标语料代价昂贵，时间金钱上需要很大的开销，并且数量受限，得不到大量的训练数据; 2.领域受限，标注都是在一个特定的语料中，训练的系统受限于那个领域

缺点：抽取的结果往往比较难映射到特定的知识库

使用 named entity tagge标注 persons organizations 和 locations；
对在freebase中出现的实体对提取特征，构造训练数据；
训练多类别逻辑斯特回归模型。

使用 named entity tagge标注 persons organizations 和 locations
在句子中出现的每对实体都被考虑做为一个潜在的关系实例，作为测试数据
使用训练后的模型对实体对分类。

a) 两个实体中间的词序列b) 这些词的词性标记 c) 标志位表示哪个实体出现在前面 d) 大小为k的左窗口 e) 大小为k的右窗口。

a) 两个实体之间的最短依存路径；b) 两个实体的左右窗口。

人名、地名、组织名和其他

连接特征来丢进多类逻辑斯特回归模型。

负例构造：随机选取不在freebase中的实体对（有错误的可能）

可向我索要