smp2017

keynete价值>Σ(paper+poster)价值

keynote1张潼

ai lab:基础研究+产品+开放


基础研究:在acl和emnlp发了很多文章(和cv、speech相比nlp是更难的问题,还要花十年二十年的功夫)

产品:游戏+社交+音乐/视频

开放:ai open platform提供api

tasks


对话是nlp到底行不行的关键点

各种从哪里到哪里

text 到knowledge: 腾讯kg

entity graph就是普通的关系

term graph就是对某个term的解释

在qa和chatbot里面的应用

先爬data->抽取关系、事件、等等的抽取->整理和处理

其中有很多困难:

跟抽取有关的一个问题,pattern-based

有篇文章:用先验知识做w2v,更好的embedd

怎么做个性化推荐:需要和文本相关,词的打分,各种各样的分类(不同分类方法),有个点就是怎么构建用户兴趣,有很多approach比如text categorization(深度model:从浅层cnn到lstm计算慢到深层cnn)

舆情分析:如今日热点:全网热点,怎么把数据聚合起来,更好的去定义这个热点。腾讯的优点:有自己的数据。情感走势:虽然只是二分类,对某一热点的文章情感走势:emnlp17用很多attention去找很多关键词,再聚合。

deep 情感 parsing:从文本到情感树,把text变成公式(把小学数学题变成公式),虽然也是一颗树,两种方案:1、自动从树生成 grammar(text-free grammar),高准确率低recall, 2、更普遍的case,用seq2seq,code成seq

想问一个问题:怎么把公式生成题目,推荐题目

text generation:写文章(从kg到text)、翻译、照片翻译

翻译也做了很多工作,但是我还是对翻译不感兴趣,就没记录。

最困难:开放域的chat,现在都只是特定domain的,open domain还是没人解决。

问题分析->各方面的merge->meta search+rbu+app+kg

重要的:context理解,知识的抽取和匹配(matching上面深度学习做的挺好),语言生成模型,更多复杂的(如独热学习)

想问一个问题:多个知识图谱?不同知识图谱的链接?结构?应该用什么方法去做kbqa!

keynote2周涛

经济学、教育学、社会学

传统区域经济评估:虚报、滞后

公开的数据来源:第一时间、无法造假

在经济学上面,计算机、大数据都只是辅助手段,并不适合切入这个领域,

教育:
用行为数据预测问题

与成绩有很多关系因素,人格不一定能变化,但是行为是可以干预的,我们去研究可以干预的。

海量data:mooc、手机

他做的是预测,index:生活是不是有序(用actual 熵而不是香农熵)+努力程度

actual 熵:n是时间序列的长度(离散值),ganmai:congi往后数,最短的长度是该序列之前都没出现过的

做斯皮尔曼主成分分析和异常分析

这个人明显是做物理的特点:统计分析像数学建模一样

(给辅导员做报警)

对于社会经济学,找一个非常有用非常性感的问题很重要,也很有意思

keynote3秦兵

社交媒体中的情感分析

情感分类:输入seq或篇章,输出情感类别


传统做的话能达到80%->rnn在依存树基础上得到根节点的情感分类(基于句法分析)->cnn直接做全局和局部的上下文信息且速度快->得到情感词典、得到语言学约束加到损失函数中


篇章级具有语意组合性,层次化的建模,词到句子到篇章(词层和句层都加attention)

(篇章级有结构性的划分问题)

lstm+attention:给予评价对象的情感分析(局部和总体,属性和个体)、memory+attention(显式利用上下文)

情感抽取

三个任务:情感词语抽取、评价对象抽取、评价搭配抽取(二元组对应)

情感词的表示学习工作(基于词语,词向量反而不好,因为词向量依靠上下文):情感词典


评价对象:传统crf序列标准->lstm+词向量+pos词性特征(emnlp2015)、依存结构

评价对象搭配:2011句法规则匹配、基于句子压缩(去无关干扰)


跨领域情感分析

从源领域到目标领域,相当于迁移学习

问题:评价对象不同,评价表达不同,情感表达极性不同(程度不同)

2010spectral feature alignment聚类

2011icml svm+单层去噪自动编码器+堆叠去噪自动编码器

个性化情感分析

基于用户用词习惯

不同用户群体情感倾向是不同的,主观想法和个人身份立场不同

比如:打分个人有打分高和打分低的偏好

2015acl

基于认知理论的方法

用户画像:属性维度、性格维度、行为维度

结合用户信息进行情感分析

基于网络结构的方法

社交媒体上用户之间的连接关系、相同情感倾向性

kdd唐杰

隐式情感分析

事实型和修辞型(说不透)

中文情感表达方式复杂

事实型


比如:桌子上有一层灰、西方文明的摇篮、收货只要20小时

基于规则和特征的意见挖掘模型(acl2011)

基于上下文的方法

修辞型

反讽:大连理工林鸿飞的隐喻语料库

情感原因发现

基于文本

数据来源哈工大深圳徐睿峰

基于个体立场

现有方法难以解决立场问题

基于群体立场

民众情绪的自动归因(对焦点事件)、可能有子话题:比如沉船有人被救起

情感生成


评论文本生成:affect-lm(2017acl):前半句生成后半句

attribute+attention(eacl)

情感回复生成!!!


知识点!!!链接!!!!反问!!!在chatbot中的应用!!

语文题目里面:任重而道远!!

学生学习,不仅是答案,更重要的是为什么,答题套路,要讲人话!

keynote4唐杰

总结前人


20世界前:社会学为主:1967六度分割、1973weak tie、1995结构度

20世纪左右:物理学:hits、pagerank、smallworld、scale free

21世纪:计算机学:link prediction、network evolution:复杂化发展(加时间加地点)densification、social influnence分析

2009computational social science(giles)

那什么是社会计算学:很多节点和边组成的社交图

信息1.0:data:像是给一个query把文档排序(google是1.0重要代表)

大数据来了:it时代公司发展云,传统公司跳进来把数据存进去

信息2.0:数据➕用户,像是信息推荐(如今日头条是2.0时代重要代表)

未来是什么:融合智能:数据语意➕用户语意=知识->智能
http://oqnrd919g.bkt.clouddn.com/17-9-16/21529687.jpg


大数据需要知识,一定需要deep learning这个锄头去挖数据

以交互驱动

节点是用户,边是关系,以用户为核心和以边为核心两种建模方式

难的是:社会理论融合到概率图模型上,不仅需要how,更需要why

第二部分,社交影响的研究

用户观点和影响

2012nature:即使不认识也会有影响

问题:应用这个影响:2009kdd,谁影响谁,双向会不一样,topical factor graph的模型

结果:谁对当前用户影响最大,学习算法(TAP算法):问题节点需要搜索到周围其他节点,效率低无法分布式计算

问题:1、结构上的影响非常复杂,2、行为怎么去用dl学习

1、结构上的影响非常复杂
aaai2017 不知道红色节点有没有边,先学习三个的,红色是正向蓝色是负向白色是目标,

在真实中,不一定是正向负向,会维数爆炸:fast sampling

可以预测微博转发结果

2、行为怎么去用dl学习

user➕embedd层

influence是一个传播的结果,而且有可能有噪音:用GAN模型化传播过程(aaai2017)

腾讯上的应用

提高了非常多

nlp session

主要是用社交媒体的数据做常见的nlp任务

seq2seq 翻译 中文分词

北理 史学文

微博中的分词,外来语和拼写错误

先做中文分词:传统当做序列标注

我们当做翻译,目标是带分隔符的序列

才知道attention based encoderdecoder是2015提出的

用最长公共子序列(LCS)来解决多语言的问题

PKU、MSRA的分词数据

结果跟LTP作对比

NLPCC2016评测数据(分词)

结果显示跟最好的还是有一定差距

本文相当于定义新的任务(带有错误),输出分好词且无错误

SIGHAN2014有个拼写任务评测

结论:给预处理提供了一个新的想法

社交媒体数据中的实体集合扩展

问题:社交媒体文本数据很多噪音、多语义

先提取候选的实体集合再对候选排序

特征:三个维度的,连词模式和前缀规则

可以用随机游走对候选答案进行排序

连词模式:用、联结或者@联结的通常是同一类别,总结出24种连词符号及其权重

综合排序模型

用map平均准确率来评估

DQN的开放域的多伦对话

问题:1、万能回复,2、不考虑到对话的未来走向

最常用的seq2seq生成式(而不是检索式)所以由于最大化似然估计所以会有万能回复

没有建模多伦对话的整体过程所以没有考虑到未来走向

用强化学习来考虑问题的总体视角sar序列,最大化马尔科夫过程

DQN:状态S和动作A,迭代更新的训练犯法,详细见2013DQN

自编码器:输入和输出一样

价值的估计(MLP)输入特征向量,输出价值

事件演化图谱

相关工作:统计脚本学习、时序关系抽取

抽象范化的事件

结构:树状、链状、环状

构建pair candidates,估计转移概率

知乎旅行答案数据

教育session

刘三女牙(宏观)


1、未来教育生态构建的核心问题

个性化学习:学习是个人的:风格、速度、兴趣

老师和学生即是面对面也无法完全掌握学生状态

2、教育信息化

云计算搭台,大数据唱戏,人工智能(数据驱动)成明星

终身学习、自主学习

3、学习场景

不是预测是洞察,帮助孩子克服缺点

4、困难

数据

机器可以替代的是归纳推理,而不是创造

缩短15年教师成长期

荀恩东 语言教育

语言教育技术

太多了

大数据

数据形式不是电子!

个性化学习、协作学习、泛在学习

相关工作

1、BCC汉字语料库(多样式的)

2、汉字书写评测系统

ppt和书,缺乏移动学习:3、app卡片汉语

问题还是在扫描件上面,还有汉字书写的评价问题

3、语文作文评分


唐杰 mooc

互相影响是非常重要的,不可能一个人学习

问题:节课率低

chatbot和mooc结合

在mooc上知识体系丢失了(层级关系)

实现智能交互,学生和知识图结合来提高热情度

教育中不是交互,而是干预,不是问什么就答什么。

(助教的角色,问问题不仅回答,还推荐课)

faq答案库:有很多回答器只是最后选择一个回答器

不一定要全都会回答,只是学习助手,他也不懂,做生态,邀请其他人回答。

“有三个人一起在看,邀请三个人来聊天!做生态”

forums和结课率的关系

预测更多


从mooc中字幕抽取关键词,类似于pagerank,做概念图,从而推荐课程,课程流程


acl2017

七个相似度+随机森林分类器

三、小沐


交互和干预

1、课程推荐,首页,推荐视频的重点

2、干预,droup out

keynote5 拓尔思

舆情:数据量

对待数据垄断:还得爬,最好还得是从平台获取

舆情报告的智能化(ai写数据驱动的舆情报告)(清博)

舆情的发展

舆情的处理过程

未来:
从单舆论场到多舆论场的融合(微博微信联合在一起)、从分析到预测(预测未来可能会发生什么,需要知识库推理)、综合人行为空间时间一起综合分析、从单语种到跨语种(全球化)、机器数据也是舆情、对重点事件做多维度分析(传播的指标)

评价指标模型

公关公司是舆情公司(拓尔思)的客户,排行指标中人为因素很重要

keynote6 刘铁岩

ai是一个方法论,但看领域本身,在各个方面都有突飞猛进的发展

1、图像

imagenet(关键点2015)

2、语音识别
loud and clear
2017 5.1%

3、nlp

翻译:

更复杂,因为包含高级语意

橙色人,绿色nn,蓝色传统

对话:小冰

左边是rl(下棋),右边是知识图谱

应用

医疗是一个长期没有被开发的处女地,ct是对器官做切片处理,医师花半个小时做诊断是困难的,只有五分钟,所以可以辅助。

而且医疗资源匮乏,把知识图谱放到机器人里面,可以改变医疗资源不均匀的情况。

金融:量化数据是一个时序序列分析,非常重要的投资资源;人类基金经理很难很快从报告中提取信息;金融投资实际是一场博弈,有来自各方的各种诉求的参与;金融投资分秒必争

总而言之,平民化和网红化,但是很多方面还是短板。

ai和人类社会之间存在的鸿沟

人的智能从何而来?
回答:社会分工相互促进(互补),教育体系知识传承(不用出生就强化学习)

dual learning和leanring to teach

dual learning对偶学习

学习是一件苦差事,问题:严重依赖于标注数据

那么,如何摆脱这种学习曲线缓慢的问题?

“听君一席话,胜读十年书”,利用对称性,主问题和对偶问题,相互给反馈信号,举例:机器翻译

原因:对称的任务有很强的概率联系

对偶推断,用对偶模型通过贝叶斯做的假主模型和真主模型做集成

leanring to teach因材施教

高效的最小化损失函数

如何教:怎么植入先验知识,平衡有监督和无监督的比例,选择合适的损失函数,怎么评估模型

经典的机器学习就是静态的学生,meta leanring就是动态学生用强化学习(最优化),learning to teach是动态老师

“教学相长”

实验:动态老师来选择数据,去冗余,去下噪音,数据输入顺序

mini-batch sgd

实验结果:

分工合作、分工合作、学术选拨(对知识的强化学习有监管)、市场经济(有无形的手在操作)

走仿生学还是结果论?还是倾向后者,为啥要学习人类社会,因为感觉现在的机器学习算法太笨了,需要大量样本,并不知道是不是数据冗余了,像牛刀杀鸡,会走向垄断,所谓我们想要轻快学习,柯洁吃一个鸡蛋就能比赛,阿尔法狗却是一个小型发电站。

对于量子计算,仍然只是把有限的问题变更快,而ai不知道智能从何而来,量子并不知道有啥结合。

#

dynamic network

2016kdd 随机异常RCA

网络的改变,变化的原因,定位

早期的用消失的相关项,

情感分析 session

李寿山苏大 文本情绪分析

任务:产品评论、个人性格分析、精神状态识别

情感是对极性的评价,情绪是主观认知经验的通称

文本情感分析:句子level、篇章level、评价对象level

文本情绪分析任务:情感类别和情感原因|结果

三种解决语料库匮乏的问题:

语料库建设

1、类别体系的定义(心理学:基本情绪和复合情绪)

基本情绪:快乐、愤怒、悲伤、恐惧

2、情绪体验者体系

作者、读者、某人

3、原因或者结果

情绪图标

事实:社交网络中含有微表情或者表情包

解决方案:网络学习的方式

半监督的新闻读者和评论(对称性)

acl13
存在读者情绪和作者情绪,情绪是有关联的。两种视角做co-training

就把非标注信息的样本利用起来

coling16

当不满足co-training时,要改进

通过新定义转移学习

(情感分析半监督都算是前沿,短文本的半监督很有挑战性)

腾讯 ai平台部 基础技术中心

舆情商业化

平台:(基础平台)->(指数分析平台、用户画像平台、舆情分析平台)->对接业务

技术问题:延时问题、歧义问题、数据量大、事件覆盖

事件热点三级发现策略:离线策略(主题分词、LDA语意聚类)、在线策略(层次聚类)、高危策略 (预定义高危事件模板,信息抽取实时上报)

歧义问题:有监督消除歧义,看做分类,每个语意一个类别,但是问题是数据太大要几十万个分类器。所以还是得用无监督消除歧义。构件实体知识库,核心是计算歧义实体的上下文和实体知识库的语义相似度

构建相似图:词为节点,边为其余弦相似度

舆情目标:有一段时期,对不同的时期有着不同的策略。

舆情组件:情绪(作者)、情感(读者)、观点提取

情绪分类建模:典型的短文本分类问题。分类模型+闭环迭代系统模型

情感分类:影响情感分类的三个关键点:评价对象、情感词语、对象和词语的相对位置

汗液做法:rule+句法分析<svm+句法分析<target+cnn<target-lstm-a<memnet;

改进:emnlp2017 recurrent attention network for aspect情感分析

观点提取

问题定义:实体观点和事件观点

用户:

问题:账号体系不统一、属性的错误、如何刻画对象(基础属性+层次化兴趣体系)

舆情商业化应用:

应用:分析用户反馈,优化产品需求,排序处理问题的优先级,分级处理问题

难点:异常问题必须在大量传播才有效,人力难以遍历信息,处理信息滞后

商业化探索:与新闻媒体结合

用采集的数据定制内容和题材策划并可视化分析结果

商业化探索:与影视剧制作结合

总结过去来预测未来

问题:用户画像和媒体画像

t大 jaijia 情感计算

affect computing
难题:怎么提取具有情感区分性的feature,social feature ,建模(large network)

表示学习session

深度学习非常重要的一个应用。非结构化学习的一个表示

赵鑫

跨主题的一些工作,推荐系统中的表示学习

对数据特征以及其结构的表示,数据的摘要。传统的矩阵分解和现在的embedd

推荐系统:评分预测和推荐五题
基本模型:mf矩阵分解

评分预测:
一个表格中的填空

更复杂的是基于context的推荐,基于页面的推荐

矩阵分解:做低纬的投影

六种方法

基于网络嵌入式
将网络节点做低维表示

用random walk生成序列

line一阶和二阶都表示出来了

刻画出图的样子

推荐更近的节点

bpr是推荐系统里面的baseline
pitf是tag的传统baseline

实验效果不错

很多带属性的信息中做随机游走很困难

wordembed

输入一串符号序列

在poi签到数据集做实验

签到地点和时间做排序得到两个序列

学习出user和location的表示

cbow:给顶点的信息,预测点的信息

用户关系刻画:skip-gram

线性加权融合两个信息

问题:序列很长,如不同月份会关联度很差

方法:按天切断,得到几个段上刻画的序列

段的信息也要加入

就是把三个jointly

实验:token2vec

计算所的工作

用学习的东西对传统模型做正则化

动机:重点刻画用户和iterm的关系,但是iterm之间相关性被忽略

而word2vec做适合刻画两个词之间的相关性,刚好

而结合方法就是一部分分解mf,另一部分分解pmi的矩阵,两个分解矩阵叠加在一起

transe

知识图谱上补全和预测上很强
对head实体加上relation等于tail实体

每个用户都生成了一个自己喜欢的很多的电影的序列

传统做hmm但是会遇到数据稀疏的问题,所以做factorized hmm

而transe要表示,先建系(先前的iterm+user=next iterm)

metric leanring:

做相似性,距离上的度量

学习一个距离函数,学习mahalanobis 距离矩阵,尽量连在一起的点距离很小,使没有链在一起的点距离大

pull loss就是使同类近,push loss就是使异类远

distance func和loss func

同时学习用户i和表示u

怎么引入用户的很多特征来改进表示,引入变化函数

引入正则化的项

多模态融合

嵌入kg

每个iterm都是entity,把知识图谱上面信息用上来

三种信息:图片、文本、信息

transr

文本:输入文本输出也是文本

图片:前端cnn搭自编码器,并且表示是可以叠加的

应用结合图像和文字做推荐,图像的信息属于iterm,basemodel只有图片没有文本,把他考虑成多任务工作,加入文本模型。

推荐系统最近几年停滞了,并没有出现很多数据集下打败svd++,bpr,fm的模型,推荐系统本身是刻画相关度的问题,那么如何用dl的方法?

效果得看数据

序列性很强用word embed,不强则用网络嵌入,或者结合?

不同的映射空间怎么到一个映射空间?不能直接相加吧?

自然语言表示学习 韩先培

nlp两条路径:符号主义路线、sub-符号主义路径(直接学习文本表示,直接映射到我们的目的表示)

深度表示学习:句子->压缩低维的稠密向量

好的表示是什么?(很多困难)

从两个方面介绍nlp表示学习

词嵌入

w->n维连续向量的函数

分布式假设:相似上下文具有相似语意(甚至是跨语言的)

大粒度短语句子

1、bow就是简单的带权词向量相加除以平均数,简单高效

2、lstm

3、受到感受野而提出cnn,具有平移缩放不变性

表示学习的应用

分成四种任务

对于ai 那个评测,说不定cnn+lstm已经很好,如果要更好,可以结合一下翻译

语言和计算社会学

推荐中知识表示

社交媒体中的网络表示

词汇表示,句子表示