CCL2018

ccl

how to do good research

goals:

metrics

what you care about (每个人不同)

观众

个人经历

如何成功:1.解决重要问题 2.把问题卖给需要的人

表达形式(组织)重于内容

演讲

目的、组织结构逻辑1234等、如何去表达

重要的话说三遍

paper

面向数学和算法,不同的取舍,不同面向对象

只要不要超过200个词

10-30个ref

易于理解、表达,别人能下载、复现的工作更会流传

2

主要去攻克一个大的问题,然后去想其子问题

从其他领域获取灵感

秘密武器

如何去获取idea:问题易于理解、方法易于描述

beginning researcher–》junior–》senior

reading:catch-up

writing:什么问题、尝试了什么有没有用、graph去描述、下个方向的可能性

ask:带着问题去参加会议或者讲座(包括你最近遇到的问题)

实验过程:记录bug

paper

amr图有cross的问题

非投影弧

amr:基于依存结构的句法

就是构建了一个数据集

amr 单根有向无环图

方法:基于图和基于转移

词向量的evaluation

embedd中的类比、类推关系

翻译集成2

finetune

九歌

先生成再检索(句向量+最大公共子序列)

法律多关键词抽取

就是摘要,曾道建

摘要

很普通的hire+pointer

黄学东

英中翻译:

transformer based

dual leanring增大数据量(中文到英文,再英文到中文)

推敲网络

方向一致性

数据选择、filtering

模型融合

前沿研讨

孙微微

naacl best

elmo:太好用了

之前的word2vec工作,如果用多层lstm,把每一层的vector都拼到一块,而不是最后的一层

传统说句法分析好,但是现在更注重数据,传统的句法结构,是否还有用? –1.如何结合,2.nn是如何去获取这些语意信息的

句法分析+self attention。emnlp best

传统的任务,

把传统解析树+self attention结合起来

实验在跨领域的评测上鲁棒性很强

acl best qa-srl

标注角色,采用之前的方式,不需要专业背景(标注者),所以构建大规模数据简单

transfer leanring、multitask leanring(acl2017 keynote)

数据很重要!!

张家俊

数据驱动的机器翻译

四个假设:文本翻译、句子为level、自左往右、需要双语对

最核心是学习一个映射函数(source–target)

transformer之后,没有发展!!

映射函数今年没有什么发展!!

对比acl文章,其实没啥区别,从题目上看,但是独有的是: 2017把句法信息放进去domain adaptation,2018UNsupervised、document

那么新的: 语音翻译(acl2018 liuyang)、用到前(后)n个句子的信息(如何对document level去评价)、并行解码(iclr2018)、领域使用(coling2018 a survey)、无监督翻译 学习词与词的映射关系(emnlp2018 best)

dl在nlp遇到瓶颈了!!

jiajia

多模态情感交互之后是什么

高质量数据最重要

2018关键词:多模态、弱监督(海量数据标注很少)、
多任务、attention

1.多模态
直接concat文本信息和cnn表示的图形信息

2.个性化

15年融入真实信息、16年融入社交网络、17年做group、18年做融合

抑郁(depression detection ijcai2018)

总结:目标:social good,带给人更好的感受

用心理学的维度来标定情感、dimensional的方式来标定(三维的点表示很多的词)、而不是简单地分类

冯 文本生成

文本到文本、数据到文本、图像到文本

最重要的:seq2seq、copy、attention

1、生成和抽取相结合

fast

2.与任务结合更紧密

commonsence
映射到知识库、动态和静态的attention

结构语意知识,结构化数据生成、

分割的方式代替卷积平扫

discourse-aware(naacl2018)

3.风格

加入可控因子(语意和风格拆开)

学习不同风格的decoder

4.借鉴人类模式

多次编辑(推敲网络)

xiayance、前后向网络、自动确定解码层数

粗粒度、细粒度

泛化

关系抽取

kb

四件需要做的事情:知识获取+知识融合+知识补充+知识推理

知识补充:现有的知识图谱不完备:链接预测

方法:表示学习。

1.翻译模型transe

2.语意模型

数据:fb15k-237

问题:挖掘必要属性:obligatory attributes

挖掘计数量词(counting quantifiers)

知识融合

任务:实体对奇、本体匹配

知识推理

目标:基于表示学习的规则推理

对话

技术及任务

检索–》翻译–》生成

从匹配到生成的时代

2018sigir conversation Recommend

数据和评测:

yelp数据,推荐式对话

mrc

要素:document、question、candicate、answer

从13年开始算,这个任务,2016squad开始火起来

词云:;wordsift.org