keynete价值>Σ(paper+poster)价值

keynote1张潼

ai lab:基础研究+产品+开放

基础研究：在acl和emnlp发了很多文章（和cv、speech相比nlp是更难的问题，还要花十年二十年的功夫）

产品：游戏+社交+音乐/视频

开放：ai open platform提供api

tasks

对话是nlp到底行不行的关键点

各种从哪里到哪里

text 到knowledge：腾讯kg

entity graph就是普通的关系

term graph就是对某个term的解释

在qa和chatbot里面的应用

先爬data->抽取关系、事件、等等的抽取->整理和处理

其中有很多困难：

跟抽取有关的一个问题，pattern-based

有篇文章：用先验知识做w2v，更好的embedd

怎么做个性化推荐：需要和文本相关，词的打分，各种各样的分类（不同分类方法），有个点就是怎么构建用户兴趣，有很多approach比如text categorization（深度model：从浅层cnn到lstm计算慢到深层cnn）

舆情分析：如今日热点：全网热点，怎么把数据聚合起来，更好的去定义这个热点。腾讯的优点：有自己的数据。情感走势：虽然只是二分类，对某一热点的文章情感走势：emnlp17用很多attention去找很多关键词，再聚合。

deep 情感 parsing：从文本到情感树，把text变成公式（把小学数学题变成公式），虽然也是一颗树，两种方案：1、自动从树生成 grammar（text-free grammar），高准确率低recall， 2、更普遍的case，用seq2seq，code成seq

想问一个问题：怎么把公式生成题目，推荐题目

text generation：写文章（从kg到text）、翻译、照片翻译

翻译也做了很多工作，但是我还是对翻译不感兴趣，就没记录。

最困难：开放域的chat，现在都只是特定domain的，open domain还是没人解决。

问题分析->各方面的merge->meta search+rbu+app+kg

重要的：context理解，知识的抽取和匹配（matching上面深度学习做的挺好），语言生成模型，更多复杂的（如独热学习）

想问一个问题：多个知识图谱？不同知识图谱的链接？结构？应该用什么方法去做kbqa！

keynote2周涛

经济学、教育学、社会学

传统区域经济评估：虚报、滞后

公开的数据来源：第一时间、无法造假

在经济学上面，计算机、大数据都只是辅助手段，并不适合切入这个领域，

教育：
用行为数据预测问题

与成绩有很多关系因素，人格不一定能变化，但是行为是可以干预的，我们去研究可以干预的。

海量data：mooc、手机

他做的是预测，index：生活是不是有序（用actual 熵而不是香农熵）+努力程度

actual 熵：n是时间序列的长度（离散值），ganmai：congi往后数，最短的长度是该序列之前都没出现过的

做斯皮尔曼主成分分析和异常分析

这个人明显是做物理的特点：统计分析像数学建模一样

（给辅导员做报警）

对于社会经济学，找一个非常有用非常性感的问题很重要，也很有意思

keynote3秦兵

社交媒体中的情感分析

情感分类：输入seq或篇章，输出情感类别

传统做的话能达到80%->rnn在依存树基础上得到根节点的情感分类（基于句法分析）->cnn直接做全局和局部的上下文信息且速度快->得到情感词典、得到语言学约束加到损失函数中

篇章级具有语意组合性，层次化的建模，词到句子到篇章（词层和句层都加attention）

（篇章级有结构性的划分问题）

lstm+attention：给予评价对象的情感分析（局部和总体，属性和个体）、memory+attention（显式利用上下文）

情感抽取

三个任务：情感词语抽取、评价对象抽取、评价搭配抽取（二元组对应）

情感词的表示学习工作（基于词语，词向量反而不好，因为词向量依靠上下文）：情感词典

评价对象：传统crf序列标准->lstm+词向量+pos词性特征（emnlp2015）、依存结构

评价对象搭配：2011句法规则匹配、基于句子压缩（去无关干扰）

跨领域情感分析

从源领域到目标领域，相当于迁移学习

问题：评价对象不同，评价表达不同，情感表达极性不同（程度不同）

2010spectral feature alignment聚类

2011icml svm+单层去噪自动编码器+堆叠去噪自动编码器

个性化情感分析

基于用户用词习惯

不同用户群体情感倾向是不同的，主观想法和个人身份立场不同

比如：打分个人有打分高和打分低的偏好

2015acl

基于认知理论的方法

用户画像：属性维度、性格维度、行为维度

结合用户信息进行情感分析

基于网络结构的方法

社交媒体上用户之间的连接关系、相同情感倾向性

kdd唐杰

隐式情感分析

事实型和修辞型（说不透）

中文情感表达方式复杂

事实型

比如：桌子上有一层灰、西方文明的摇篮、收货只要20小时

基于规则和特征的意见挖掘模型（acl2011）

基于上下文的方法

修辞型

反讽：大连理工林鸿飞的隐喻语料库

情感原因发现

基于文本

数据来源哈工大深圳徐睿峰

基于个体立场

现有方法难以解决立场问题

基于群体立场

民众情绪的自动归因（对焦点事件）、可能有子话题：比如沉船有人被救起

情感生成

评论文本生成：affect-lm（2017acl）：前半句生成后半句

attribute+attention（eacl）

情感回复生成！！！

知识点！！！链接！！！！反问！！！在chatbot中的应用！！

语文题目里面：任重而道远！！

学生学习，不仅是答案，更重要的是为什么，答题套路，要讲人话！

keynote4唐杰

总结前人

20世界前：社会学为主：1967六度分割、1973weak tie、1995结构度

20世纪左右：物理学：hits、pagerank、smallworld、scale free

21世纪：计算机学：link prediction、network evolution：复杂化发展（加时间加地点）densification、social influnence分析

2009computational social science（giles）

那什么是社会计算学：很多节点和边组成的社交图

信息1.0：data：像是给一个query把文档排序（google是1.0重要代表）

大数据来了：it时代公司发展云，传统公司跳进来把数据存进去

信息2.0：数据➕用户，像是信息推荐（如今日头条是2.0时代重要代表）

未来是什么：融合智能：数据语意➕用户语意=知识->智能
http://oqnrd919g.bkt.clouddn.com/17-9-16/21529687.jpg

大数据需要知识，一定需要deep learning这个锄头去挖数据

以交互驱动

节点是用户，边是关系，以用户为核心和以边为核心两种建模方式

难的是：社会理论融合到概率图模型上，不仅需要how，更需要why

第二部分，社交影响的研究

用户观点和影响

2012nature：即使不认识也会有影响

问题：应用这个影响：2009kdd，谁影响谁，双向会不一样，topical factor graph的模型

结果：谁对当前用户影响最大，学习算法（TAP算法）：问题节点需要搜索到周围其他节点，效率低无法分布式计算

问题：1、结构上的影响非常复杂，2、行为怎么去用dl学习

1、结构上的影响非常复杂
aaai2017 不知道红色节点有没有边，先学习三个的，红色是正向蓝色是负向白色是目标，

在真实中，不一定是正向负向，会维数爆炸：fast sampling

可以预测微博转发结果

2、行为怎么去用dl学习

user➕embedd层

influence是一个传播的结果，而且有可能有噪音：用GAN模型化传播过程（aaai2017）

腾讯上的应用

提高了非常多

nlp session

主要是用社交媒体的数据做常见的nlp任务

seq2seq 翻译中文分词

北理史学文

微博中的分词，外来语和拼写错误

先做中文分词：传统当做序列标注

我们当做翻译，目标是带分隔符的序列

才知道attention based encoderdecoder是2015提出的

用最长公共子序列（LCS）来解决多语言的问题

PKU、MSRA的分词数据

结果跟LTP作对比

NLPCC2016评测数据（分词）

结果显示跟最好的还是有一定差距

本文相当于定义新的任务（带有错误），输出分好词且无错误

SIGHAN2014有个拼写任务评测

结论：给预处理提供了一个新的想法

社交媒体数据中的实体集合扩展

问题：社交媒体文本数据很多噪音、多语义

先提取候选的实体集合再对候选排序

特征：三个维度的，连词模式和前缀规则

可以用随机游走对候选答案进行排序

连词模式：用、联结或者@联结的通常是同一类别，总结出24种连词符号及其权重

综合排序模型

用map平均准确率来评估

DQN的开放域的多伦对话

问题：1、万能回复，2、不考虑到对话的未来走向

最常用的seq2seq生成式（而不是检索式）所以由于最大化似然估计所以会有万能回复

没有建模多伦对话的整体过程所以没有考虑到未来走向

用强化学习来考虑问题的总体视角sar序列，最大化马尔科夫过程

DQN：状态S和动作A，迭代更新的训练犯法，详细见2013DQN

自编码器：输入和输出一样

价值的估计（MLP）输入特征向量，输出价值

事件演化图谱

相关工作：统计脚本学习、时序关系抽取

抽象范化的事件

结构：树状、链状、环状

构建pair candidates，估计转移概率

知乎旅行答案数据

教育session

刘三女牙（宏观）

1、未来教育生态构建的核心问题

个性化学习：学习是个人的：风格、速度、兴趣

老师和学生即是面对面也无法完全掌握学生状态

2、教育信息化

云计算搭台，大数据唱戏，人工智能（数据驱动）成明星

终身学习、自主学习

3、学习场景

不是预测是洞察，帮助孩子克服缺点

4、困难

数据

机器可以替代的是归纳推理，而不是创造

缩短15年教师成长期

荀恩东语言教育

语言教育技术

太多了

大数据

数据形式不是电子！

个性化学习、协作学习、泛在学习

唐杰 mooc

互相影响是非常重要的，不可能一个人学习

问题：节课率低

chatbot和mooc结合

在mooc上知识体系丢失了（层级关系）

实现智能交互，学生和知识图结合来提高热情度

教育中不是交互，而是干预，不是问什么就答什么。

（助教的角色，问问题不仅回答，还推荐课）

faq答案库：有很多回答器只是最后选择一个回答器

不一定要全都会回答，只是学习助手，他也不懂，做生态，邀请其他人回答。

“有三个人一起在看，邀请三个人来聊天！做生态”

forums和结课率的关系

预测更多

从mooc中字幕抽取关键词，类似于pagerank，做概念图，从而推荐课程，课程流程

acl2017

七个相似度+随机森林分类器

三、小沐

交互和干预

1、课程推荐，首页，推荐视频的重点

2、干预，droup out

keynote5 拓尔思

舆情：数据量

对待数据垄断：还得爬，最好还得是从平台获取

舆情报告的智能化（ai写数据驱动的舆情报告）（清博）

舆情的发展

舆情的处理过程

未来：
从单舆论场到多舆论场的融合（微博微信联合在一起）、从分析到预测（预测未来可能会发生什么，需要知识库推理）、综合人行为空间时间一起综合分析、从单语种到跨语种（全球化）、机器数据也是舆情、对重点事件做多维度分析（传播的指标）

评价指标模型

公关公司是舆情公司（拓尔思）的客户，排行指标中人为因素很重要

keynote6 刘铁岩

ai是一个方法论，但看领域本身，在各个方面都有突飞猛进的发展

1、图像

imagenet（关键点2015）

2、语音识别
loud and clear
2017 5.1%

3、nlp

翻译：

更复杂，因为包含高级语意

橙色人，绿色nn，蓝色传统

对话：小冰

左边是rl（下棋），右边是知识图谱

应用

医疗是一个长期没有被开发的处女地，ct是对器官做切片处理，医师花半个小时做诊断是困难的，只有五分钟，所以可以辅助。

而且医疗资源匮乏，把知识图谱放到机器人里面，可以改变医疗资源不均匀的情况。

金融：量化数据是一个时序序列分析，非常重要的投资资源；人类基金经理很难很快从报告中提取信息；金融投资实际是一场博弈，有来自各方的各种诉求的参与；金融投资分秒必争

总而言之，平民化和网红化，但是很多方面还是短板。

ai和人类社会之间存在的鸿沟

人的智能从何而来？
回答：社会分工相互促进（互补），教育体系知识传承（不用出生就强化学习）

dual learning和leanring to teach

dual learning对偶学习

学习是一件苦差事，问题：严重依赖于标注数据

那么，如何摆脱这种学习曲线缓慢的问题？

“听君一席话，胜读十年书”，利用对称性，主问题和对偶问题，相互给反馈信号，举例：机器翻译

原因：对称的任务有很强的概率联系

对偶推断，用对偶模型通过贝叶斯做的假主模型和真主模型做集成

leanring to teach因材施教

高效的最小化损失函数

如何教：怎么植入先验知识，平衡有监督和无监督的比例，选择合适的损失函数，怎么评估模型

经典的机器学习就是静态的学生，meta leanring就是动态学生用强化学习（最优化），learning to teach是动态老师

“教学相长”

实验：动态老师来选择数据，去冗余，去下噪音，数据输入顺序

mini-batch sgd

实验结果：

分工合作、分工合作、学术选拨（对知识的强化学习有监管）、市场经济（有无形的手在操作）

走仿生学还是结果论？还是倾向后者，为啥要学习人类社会，因为感觉现在的机器学习算法太笨了，需要大量样本，并不知道是不是数据冗余了，像牛刀杀鸡，会走向垄断，所谓我们想要轻快学习，柯洁吃一个鸡蛋就能比赛，阿尔法狗却是一个小型发电站。

对于量子计算，仍然只是把有限的问题变更快，而ai不知道智能从何而来，量子并不知道有啥结合。

dynamic network

2016kdd 随机异常RCA

网络的改变，变化的原因，定位

早期的用消失的相关项，

情感分析 session

李寿山苏大文本情绪分析

任务：产品评论、个人性格分析、精神状态识别

情感是对极性的评价，情绪是主观认知经验的通称

文本情感分析：句子level、篇章level、评价对象level

文本情绪分析任务:情感类别和情感原因|结果

三种解决语料库匮乏的问题：

语料库建设

1、类别体系的定义（心理学：基本情绪和复合情绪）

基本情绪：快乐、愤怒、悲伤、恐惧

2、情绪体验者体系

作者、读者、某人

3、原因或者结果

情绪图标

事实：社交网络中含有微表情或者表情包

解决方案：网络学习的方式

半监督的新闻读者和评论（对称性）

acl13
存在读者情绪和作者情绪，情绪是有关联的。两种视角做co-training

就把非标注信息的样本利用起来

coling16

当不满足co-training时，要改进

通过新定义转移学习

（情感分析半监督都算是前沿，短文本的半监督很有挑战性）

腾讯 ai平台部基础技术中心

舆情商业化

平台：（基础平台）->（指数分析平台、用户画像平台、舆情分析平台）->对接业务

技术问题：延时问题、歧义问题、数据量大、事件覆盖

事件热点三级发现策略：离线策略（主题分词、LDA语意聚类）、在线策略（层次聚类）、高危策略（预定义高危事件模板，信息抽取实时上报）

歧义问题：有监督消除歧义，看做分类，每个语意一个类别，但是问题是数据太大要几十万个分类器。所以还是得用无监督消除歧义。构件实体知识库，核心是计算歧义实体的上下文和实体知识库的语义相似度

构建相似图：词为节点，边为其余弦相似度

舆情目标：有一段时期，对不同的时期有着不同的策略。

舆情组件：情绪（作者）、情感（读者）、观点提取

情绪分类建模：典型的短文本分类问题。分类模型+闭环迭代系统模型

情感分类：影响情感分类的三个关键点：评价对象、情感词语、对象和词语的相对位置

汗液做法：rule+句法分析<svm+句法分析<target+cnn<target-lstm-a<memnet；

改进：emnlp2017 recurrent attention network for aspect情感分析

观点提取

问题定义：实体观点和事件观点

用户：

问题：账号体系不统一、属性的错误、如何刻画对象（基础属性+层次化兴趣体系）

舆情商业化应用：

应用：分析用户反馈，优化产品需求，排序处理问题的优先级，分级处理问题

难点：异常问题必须在大量传播才有效，人力难以遍历信息，处理信息滞后

商业化探索：与新闻媒体结合

用采集的数据定制内容和题材策划并可视化分析结果

商业化探索：与影视剧制作结合

总结过去来预测未来

问题：用户画像和媒体画像

t大 jaijia 情感计算

affect computing
难题：怎么提取具有情感区分性的feature，social feature ，建模（large network）

表示学习session

深度学习非常重要的一个应用。非结构化学习的一个表示

赵鑫

跨主题的一些工作，推荐系统中的表示学习

对数据特征以及其结构的表示，数据的摘要。传统的矩阵分解和现在的embedd

推荐系统：评分预测和推荐五题
基本模型：mf矩阵分解

评分预测：
一个表格中的填空

更复杂的是基于context的推荐，基于页面的推荐

矩阵分解：做低纬的投影

等

六种方法

基于网络嵌入式
将网络节点做低维表示

用random walk生成序列

line一阶和二阶都表示出来了

刻画出图的样子

推荐更近的节点

bpr是推荐系统里面的baseline
pitf是tag的传统baseline

实验效果不错

很多带属性的信息中做随机游走很困难

wordembed

输入一串符号序列

在poi签到数据集做实验

签到地点和时间做排序得到两个序列

学习出user和location的表示

cbow：给顶点的信息，预测点的信息

用户关系刻画：skip-gram

线性加权融合两个信息

问题：序列很长，如不同月份会关联度很差

方法：按天切断，得到几个段上刻画的序列

段的信息也要加入

就是把三个jointly

实验：token2vec

计算所的工作

用学习的东西对传统模型做正则化

动机：重点刻画用户和iterm的关系，但是iterm之间相关性被忽略

而word2vec做适合刻画两个词之间的相关性，刚好

而结合方法就是一部分分解mf，另一部分分解pmi的矩阵，两个分解矩阵叠加在一起

transe

知识图谱上补全和预测上很强
对head实体加上relation等于tail实体

每个用户都生成了一个自己喜欢的很多的电影的序列

传统做hmm但是会遇到数据稀疏的问题，所以做factorized hmm

而transe要表示，先建系（先前的iterm+user=next iterm）

metric leanring：

做相似性，距离上的度量

学习一个距离函数，学习mahalanobis 距离矩阵，尽量连在一起的点距离很小，使没有链在一起的点距离大

pull loss就是使同类近，push loss就是使异类远

distance func和loss func

同时学习用户i和表示u

怎么引入用户的很多特征来改进表示，引入变化函数

引入正则化的项

多模态融合

嵌入kg

每个iterm都是entity，把知识图谱上面信息用上来

三种信息：图片、文本、信息

transr

文本：输入文本输出也是文本

图片：前端cnn搭自编码器，并且表示是可以叠加的

应用结合图像和文字做推荐，图像的信息属于iterm，basemodel只有图片没有文本，把他考虑成多任务工作，加入文本模型。

推荐系统最近几年停滞了，并没有出现很多数据集下打败svd++，bpr，fm的模型，推荐系统本身是刻画相关度的问题，那么如何用dl的方法？

效果得看数据

序列性很强用word embed，不强则用网络嵌入，或者结合？

不同的映射空间怎么到一个映射空间？不能直接相加吧？

自然语言表示学习韩先培

nlp两条路径：符号主义路线、sub-符号主义路径（直接学习文本表示，直接映射到我们的目的表示）

深度表示学习：句子->压缩低维的稠密向量

好的表示是什么？（很多困难）

从两个方面介绍nlp表示学习

词嵌入

w->n维连续向量的函数

分布式假设：相似上下文具有相似语意（甚至是跨语言的）

大粒度短语句子

1、bow就是简单的带权词向量相加除以平均数，简单高效

2、lstm

3、受到感受野而提出cnn，具有平移缩放不变性

表示学习的应用

分成四种任务

对于ai 那个评测，说不定cnn+lstm已经很好，如果要更好，可以结合一下翻译

语言和计算社会学

推荐中知识表示

社交媒体中的网络表示

词汇表示，句子表示