第一届法研杯

汉王任务一罪名

预处理：分词、数值替换！！！！、tf-idf for SVM、wordembedding for CNN、数值上采样

传统做法：9个svm(子采样)做投票

cnn多分类：如果单类别就是onehot，双类别就是0000.50000.5000，三类别就是000 0.3 00000.3 0000.3。这使得累加都是1

第二种cnn,架构不一样

三种模型做集成

注意：attention很重要，dl优于传统，svm速度很快，重点：把差异大的模型继承是很好的做法

中电28所任务三刑期

model1：dpcnn、model2：fmcnn

早起multi task还行后来就不行了

多分类，也是传统+dl融合的方式

预处理：停用词、金额、重量、酒精浓度、地区、时间、当事人姓名都用不同的大写字母去代替，意思是这些命名实体对最后结果影响非常大

传统：tf-idf做特征选择（10w），模型：线性svc、labelpowerset、rakelD

三种方法来解决多标签：问题转化(lp)、改编算法、集成方法，来转化为单标签问题

问题转化：二元关联、分类器链、标签powerset

有个所用模型：。。。。。。。注意看ppt

改编算法：knn的多标签版本mlknn

集成：rakelo、rakeld：大标签集分成一定数目小标签集，使用label powerset训练相应的分类器，最后投票

样本少的类比设置高的权重

jieba分词

有没有易混淆的：抢劫、抢夺，加入要素维度，利用fine-tuning 训练易混淆模型：正则

多模型融合：textcnn、textrnn

小的技巧、数据分析、详细的实验记录（想好做哪些尝试）

hir句子、离散特征用fm、法条embed

法条预测：nilinear做一个相关性匹配、sigmoid loss

罪名预测：attr classifier

级联的方式：hard、soft

三个loss

刑期预测:先做分类再做回归，mae、huber loss(介于mae-mse之间)

一个五个loss做multi task

elmo真的有效果

找到一些性能比较相似的embed去融合，因为可能是不同角度去描述

fewshot：人为设定属性

bilinear做异构数据拉到同一个空间

任务1、2绝对是一起训练的

业务规则特征就是一些数字的不同有不同意义

用邴立东的ram，dpcnn，rcnn

注意模型细节！！！不同结构非常重要