lawchallenge

第一届法研杯

汉王任务一罪名

预处理:分词、数值替换!!!!、tf-idf for SVM、wordembedding for CNN、数值上采样

传统做法:9个svm(子采样)做投票

cnn多分类:如果单类别就是onehot,双类别就是0000.50000.5000,三类别就是000 0.3 00000.3 0000.3。这使得累加都是1

第二种cnn,架构不一样

三种模型做集成

注意:attention很重要,dl优于传统,svm速度很快,重点:把差异大的模型继承是很好的做法

中电28所任务三刑期

model1:dpcnn、model2:fmcnn

早起multi task还行 后来就不行了

安徽省高院

多分类,也是传统+dl融合的方式

预处理:停用词、金额、重量、酒精浓度、地区、时间、当事人姓名都用不同的大写字母去代替,意思是这些命名实体对最后结果影响非常大

传统:tf-idf做特征选择(10w),模型:线性svc、labelpowerset、rakelD

三种方法来解决多标签:问题转化(lp)、改编算法、集成方法,来转化为单标签问题

问题转化:二元关联、分类器链、标签powerset

有个所用模型:。。。。。。。注意看ppt

改编算法:knn的多标签版本mlknn

集成:rakelo、rakeld:大标签集分成一定数目小标签集,使用label powerset训练相应的分类器,最后投票

西电

样本少的类比设置高的权重

jieba分词

有没有易混淆的:抢劫、抢夺,加入要素维度,利用fine-tuning 训练易混淆模型:正则

多模型融合:textcnn、textrnn

小的技巧、数据分析、详细的实验记录(想好做哪些尝试)

达观数据

ali

模型

hir句子、离散特征用fm、法条embed

法条预测:nilinear做一个相关性匹配、sigmoid loss

罪名预测:attr classifier

级联的方式:hard、soft

三个loss

刑期预测:先做分类再做回归,mae、huber loss(介于mae-mse之间)

一个五个loss做multi task

调优

elmo真的有效果

找到一些性能比较相似的embed去融合,因为可能是不同角度去描述

fewshot:人为设定属性

bilinear做异构数据拉到同一个空间

国双

任务1、2绝对是一起训练的

业务规则特征就是一些数字的不同有不同意义

用邴立东的ram,dpcnn,rcnn

注意模型细节!!!不同结构非常重要