汉王任务一罪名
预处理:分词、数值替换!!!!、tf-idf for SVM、wordembedding for CNN、数值上采样
传统做法:9个svm(子采样)做投票
cnn多分类:如果单类别就是onehot,双类别就是0000.50000.5000,三类别就是000 0.3 00000.3 0000.3。这使得累加都是1
第二种cnn,架构不一样
三种模型做集成
注意:attention很重要,dl优于传统,svm速度很快,重点:把差异大的模型继承是很好的做法
中电28所任务三刑期
model1:dpcnn、model2:fmcnn
早起multi task还行 后来就不行了
安徽省高院
多分类,也是传统+dl融合的方式
预处理:停用词、金额、重量、酒精浓度、地区、时间、当事人姓名都用不同的大写字母去代替,意思是这些命名实体对最后结果影响非常大
传统:tf-idf做特征选择(10w),模型:线性svc、labelpowerset、rakelD
三种方法来解决多标签:问题转化(lp)、改编算法、集成方法,来转化为单标签问题
问题转化:二元关联、分类器链、标签powerset
有个所用模型:。。。。。。。注意看ppt
改编算法:knn的多标签版本mlknn
集成:rakelo、rakeld:大标签集分成一定数目小标签集,使用label powerset训练相应的分类器,最后投票
西电
样本少的类比设置高的权重
jieba分词
有没有易混淆的:抢劫、抢夺,加入要素维度,利用fine-tuning 训练易混淆模型:正则
多模型融合:textcnn、textrnn
小的技巧、数据分析、详细的实验记录(想好做哪些尝试)
达观数据
ali
模型
hir句子、离散特征用fm、法条embed
法条预测:nilinear做一个相关性匹配、sigmoid loss
罪名预测:attr classifier
级联的方式:hard、soft
三个loss
刑期预测:先做分类再做回归,mae、huber loss(介于mae-mse之间)
一个五个loss做multi task
调优
elmo真的有效果
找到一些性能比较相似的embed去融合,因为可能是不同角度去描述
fewshot:人为设定属性
bilinear做异构数据拉到同一个空间
国双
任务1、2绝对是一起训练的
业务规则特征就是一些数字的不同有不同意义
用邴立东的ram,dpcnn,rcnn
注意模型细节!!!不同结构非常重要