ict-intern

text Generation

survey

Generation问题的本质是什么Non-linguistic input (logical forms, database entries, etc.) or text ⇒ Text

Seq2Seq [Sutskever, Vinyals, Le 2014]
VAE [Kingma & Welling 2014]
GAN[Goodfellow+ 2014]
ACL [Mooney 2015]

seq2seq最大的问题:information bottleneck

vae

cvae

gan

An LSTM is not enough三个方面:1.有助于unsupervised training比如LM, AE, GAN

2.输入是additional conditioning inputs,就带有semantic信息

3.可以根据任务设计loss function(超越mle,如rl),以及评价方式

MLE的问题:dull, generic ,repetitive, and short-sighted

Exposure bias、loss mismatch

cd

CD 给每个词、短语之间的交互 一个分数

使得lstm可解释性

具有identifying phrases of varying sentiment, and extracting meaningful word (or variable) interactions的能力

意思是说我们这个操作在word-level importance()之上,能更好的理解LSTM

你说LSTM也是种发现特征之间的非线性交互,但是我们无法描述这种交互

lstm判断词的情感

相关工作

说是有四条线去理解这个黑匣子
1.计算词级别的重要性分数(3个baseline),但忽略了interactions

Cell decomposition (Murdoch & Szlam, 2017)

Leave one out (Li et al., 2016)

Integrated gradients (Sundararajan et al., 2017)

2.基于移动,识别出位置,缺点是不具有可解释性

3.基于分解,像cnn去算像素之间的interactions

4.Attention,虽然效果好,但是是间接的,也不能表现interactions

cd

分解c和h,是由当前词贡献的 和 其他词贡献的

可以分别对这两部分做softmax,对当前词,就有了它对于情感分类的贡献

Explaining Character-Aware Neural Networks for Word-Level Prediction:

摘要

想去知道到底lstm学到的是一种什么样的pattern,就是把cd也放到cnn上面了。词性标注任务,还是去证明lstm学习到了什么样的语意信息

一个贡献是拓展到textcnn,另一个是发现学到的词性标注的pattern和语言学家的规则是一致的

cd

分解为来自一个词里面每个特定的字母 和 这个词中的的所有其他的字母

cnn

分别分解卷积层、 激活函数、max-pooling 操作

本质上都是句子表示之后再softmax多分类