文本摘要和情感分析、mt、文本分析及表示学习
文本摘要和情感分析
1.异步多模态文本摘要
介绍:
同步·:同一时间语言和视频(字幕)
异步:文本新闻,视频新闻
多模态的异步:文本模态,视频模态,音频模态
要考虑到:会有很多错误
视频:一系列图像集合,镜头内部语意相似(一系列帧的集合)
视觉信息在新闻中占有什么角色
若是文本摘要能覆盖这些视觉亮点就可以覆盖那些重点
镜头长的自然更重要一些
具体:
重要性,可读性,覆盖视觉信息
salience for text:Lexrank模型:避免可读性差的出现在摘要中(语音识别和文本相比哪个好就用哪个)
coverage for visual:
采用text image matching model(cvpr2016)是一个文本图片匹配分类器
但是还要提取子句,语意角色标注,(扔去时间地点信息)
目标函数:怎么优化有数学……
上面如图
数据集:
对比试验:有七个对比,肯定是图文匹配结果更好(加引导策略提升不大,引导策略对可读性有提升)
总结:指导策略来可读性高,多模态摘要(未来:低成本标注大量数据集)
2 多文本摘要
保持句子间的亲疏度
aim:选择更重要的句子、冗余性少
一个摘要系统的目标函数考虑到aim
几十篇文档句子数量很多,但目标摘要句子少
优点:用图排序(基于迭代,较为复杂)所以不需要大量数据集(区别深度模型)
更新调整随机游走模型中的非对称的转移矩阵
缺点:convergence,词袋模型
传统上随机游走模型:离散mm,加了一个只能转移到自己的节点
3.情感原因发现
(coling2010 规则方法 等上述都没公开数据集)
情感表达
emnlp2016公布新浪微博数据库
转化为树的分类问题(词语之间关系),只能处理句子,无法处理短语
新的框架:问答系统框架,情感相当阅读文本,情感相当问题,结果相当于答案,答案只有yes和no
memory network(memnet 2015)作为基本模型,注意力的加权和
但是权重由上下文和本文一起决定
相当于卷积注意力加权方法
conv-memnet
实验对隔壁传统:
rb
cb
rb+cb+ml
svm
word2vec
cnn
多核
c-memnet有很多提升
重新定义了测评指标来测短语级别)
引入卷积操作(ntcir emotion cause extraction shared task中英文的数据集)
4多语言的情感分类
带情感信息的embedded(bilingual word2vec)
中文自身和英文自身预测,互译预测
亚马逊购物评论数据集(…)
几个分类器,主要是LR回归得到分类(只是用GD去调收敛):
bilingual model:直接平行 单语言模型(双语数据)
pivotn-driven bilingual model:无需平行语料
universal multilingual model:到英语无法直接到达的语言,统一的模型
实验只是想知道能不能获取这样的信息,压缩到embedding空间后一个模型得到的统一的分类器
5情感词典的构建
传统的是基于字典和基于语料
词义级和文档级监督信息
基于PMI的词语级监督
文档级监督
预测和真实的差异,定义交叉熵
rgd来最小化损失函数
由此得到情感表示来构建情感词典
情感词典(HIT 2015 tang)训练softmax分类器
(正向和负向)
数据集是twtter
评估分为有监督(特征模板是LIBSVM工具包)和无监督
评估:semeval情感词典
结论:三种来源:预订的情感词典,PMI-SO硬 sentiment anotation,PMI-SO软sentiment annotation
mt
1. 神经网络phase翻译
引入SMt(statistical)的短语来打败nmt(缺点:生成的东西跟原文不相关)
结合nmt和smt
有word level和sentence level,那phase level?
问题:
忠实度、覆盖度
预先:smt把核心词提出来,smt写相关的phase,nmt读取那些相关的phase
nn based balance 求概率
NIST数据集
关心的是生成的phase对我们有没有帮助
结果:
NP
VP:时态分不清楚
QP
上述都不好
不足:smt翻译有问题,chunking有错误抠不出来,word generation
结论:照片中某个表格
smt得出的东西让nmt去玩
未来还能做什么:?
2. 词语预测机制
encoder decoder框架:输出生成initial state(含目标信息)
decoder的隐藏层有
缺点:错误回传(某个词翻译错误)
s1和s2没有直接的监督
上述不好,则提出新的,要有直接控制,回传机制要有监督后续信息
就引入词语预测机制
词语预测不关注词语性质,只关注是否正确。
训练过程中对initial state和hidden state都加入词语预测
initial state:某个公式最大化概率
hidden state:最大化…….
且不会影响解码(而且可以加快解码效率)
做法:先词语预测,选出最大的概率的词语,然后把它交给解码,(但注意一定要准确)
实验:
LDC中英语料
这个模型加了dropout之后没作用?why
召回率很高,所以能包含将翻译的全部词语
但是一个句子每个词找最好的真的就最后结论最好吗
其实就相当于多任务的学习。。
- 双向分层表示
主要是关注encoder
关注:长距离依赖不会编码的那么好,语法和语意的缺失
conv-tree-based encoder
基于树的encoder的改进
工作:1,双向树的编码2.拓展到字词subword来解决oov问题
3.树和叶有近似的词语
1, 双向树的编码
自顶向下(标准gru)
2.拓展到字词subword来解决oov问题
自己建一个自左向右两两结合的词法树,把它融入到句法树
就既包含全局信息也包含局部信息,但是那么就会有重复的翻译
3.对原来的attention机制修改,把两部分的(红色和绿色)分开
gating scalar
就知道词向量占得多还是短语向量占得多
实验:
数据集LDC
不仅序列的上下信息,结构的上下文信息也能得到提升
词法树的加入不会破坏翻译质量,而且树模型会涨一点
贝塔的值是叶向量(节点)和词语向量的占比(节点),各有所长
所以gating scale(自动去学权重)是最好的
- 无监督生成双语词典构建
非平行的中英文本语料
前人训练前都需要一个小的词典(种子词典)
发现词向量不同语言空间上是近似的,线性映射联系起来
想法:无监督,取消种子词典依赖
学习一个映射G,关键是距离度量earth mover distance (EMD)(离散分布)
想象为土堆和坑洞,最小化整体的方案,而且能得到一词多义
(Wasserstein distance)
两种优化方案
1, gan
2, 正交
先固定g,求解t,再反过来,交替形式,并可以收敛
用WGAN的结果优化EMDOT
实验:
五对语言
和用种子词典对比,
plus:
语言间距离决定因素:两种因素,语言形态和交互关系
信息抽取及自动问答
1.关系抽取:知识图谱补全,问答,热点事件
问题:难以多句话文本抽取语意
引入关系路径编码器
模型:
text encoder
path encoder
joint model
实验做了很多种情况,加path之后都有提升
还自己构造了一个数据集
2.全局优化端对端nn
句子级别的关系抽取:转化为序列
2014年的填表table-filling sequence n的平方的表
融入beam searching(acl2016)
特征抽取上面有所不同(句法特征)
双向LSTM从左向右和从右向左
3.异构知识理解和机器阅读
常识阅读理解
rocstories数据集,更需要非直接来自于文本的知识
知识获取:把知识表示成推理知识:1时间序列知识event narrative knowledge
从文本中无监督得到
2实体之间的语意知识 entity semantic knowledge
3 实体间的相关关系 entity associate knowledge
4 情感一致性规则 sentiment
metric learning 来矫正推理规则
怎么去应用:
文档和候选答案划分为元素(phase):对推理合理性进行评估
结果中出现的每个元素能找到依据
框架:
得到代价和概率,由此softmax
但是有问题
1, 抽取的是词对
2, 怎么形成一个统一的框架的
3, 时间序列不一定能提出来
4, 准确率取决于得到的模型的所用的文本的正误回答之间的距离好坏以及和要用到的文本之间的近似度
4法学
5 聊天场景下的回复生成
生成式回复是统计模型,那么统一的回复会概率很大但是很无聊
用外部的信号告诉它,gan框架
生成器和判别器
文本是离散结构,图像是连续的,这样离散会导致不可导。
rl框架是融合多个不同的模型,从而相互作用,但是rl不够直接,端到端模型应该紧密结合在一起。
如何变成连续?
提出embedding层,从而判别器能顺利传到生成器
取倒数第二层作为loss
百度贴吧作为数据集?好吗这样
主要是解决gan用在单轮对话上
如何变为连续,如何定义loss函数(最小化最后一层的两个句子节点的差距)
结果上看上去很好
文本分析及表示学习
1. gan对Twitter进行词性标注
含有OOV问题
word2vec会丢失形态和结构信息
2. 中文0指代消解任务
我吃了一个苹果。很甜
0代词(ZP)能帮助替代句子中以前出现的词语
ZP的先行词一般是名词短语
常见:作为分类任务,寻找一系列先行可能的词汇,分为可消解和不可消解
可消解概率最大的就是我们要找到的
不足:没有利用语意信息(只是针对词法语法),因为很难被表示,没有描述形信息
需要借助句子其他信息:上下文,潜在的那些先行语(memory network逐层去做)
上下文:两层上下文LSTM从左到右和从右到左
潜在的那些先行语:之前是用平均和head word但是都有问题
那么就用lstm,一个正向一个反向
就有了np的表示,那么怎样用于memory network呢?
每个先行语作为memory,
加权求和,每个都加attention,多层的attention
(每个trick之后提升,实验要有)
3. ngram2vec
得到更好的单词表示(结合工作,自己工作不多)
4. 面向习语的组合语意
词的语意组合成句子语意
idioms习语有普通的词但是意思不同(比如撒狗粮)
用gate判断取组合还是非组合
实验如图
先要有个习语表,对任何一个ngram都要看是否是习语,不连续的习语无法处理
情感分析的可视化:越红越正面,越蓝越负面
圆形是组合,三角是
共享的方式做情感方面的组合任务,构造了一个数据集