survey
Generation问题的本质是什么Non-linguistic input (logical forms, database entries, etc.) or text ⇒ Text
Seq2Seq [Sutskever, Vinyals, Le 2014]
VAE [Kingma & Welling 2014]
GAN[Goodfellow+ 2014]
ACL [Mooney 2015]
seq2seq最大的问题:information bottleneck
vae
cvae
gan
An LSTM is not enough三个方面:1.有助于unsupervised training比如LM, AE, GAN
2.输入是additional conditioning inputs,就带有semantic信息
3.可以根据任务设计loss function(超越mle,如rl),以及评价方式
MLE的问题:dull, generic ,repetitive, and short-sighted
Exposure bias、loss mismatch
cd
CD 给每个词、短语之间的交互 一个分数
使得lstm可解释性
具有identifying phrases of varying sentiment, and extracting meaningful word (or variable) interactions的能力
意思是说我们这个操作在word-level importance()之上,能更好的理解LSTM
你说LSTM也是种发现特征之间的非线性交互,但是我们无法描述这种交互
lstm判断词的情感
相关工作
说是有四条线去理解这个黑匣子
1.计算词级别的重要性分数(3个baseline),但忽略了interactions
Cell decomposition (Murdoch & Szlam, 2017)
Leave one out (Li et al., 2016)
Integrated gradients (Sundararajan et al., 2017)
2.基于移动,识别出位置,缺点是不具有可解释性
3.基于分解,像cnn去算像素之间的interactions
4.Attention,虽然效果好,但是是间接的,也不能表现interactions
cd
分解c和h,是由当前词贡献的 和 其他词贡献的
可以分别对这两部分做softmax,对当前词,就有了它对于情感分类的贡献
Explaining Character-Aware Neural Networks for Word-Level Prediction:
摘要
想去知道到底lstm学到的是一种什么样的pattern,就是把cd也放到cnn上面了。词性标注任务,还是去证明lstm学习到了什么样的语意信息
一个贡献是拓展到textcnn,另一个是发现学到的词性标注的pattern和语言学家的规则是一致的
cd
分解为来自一个词里面每个特定的字母 和 这个词中的的所有其他的字母
cnn
分别分解卷积层、 激活函数、max-pooling 操作
本质上都是句子表示之后再softmax多分类