和李云涛的晚上trip
他是本科两年修完四年的课,要上那种给分好事情少的老师,去听好老师的课。
微博关注:爱可可爱生活
各种评测比赛不好的地方:就是简单的把各种模型拼凑、boosting找最好的,没有创新
实习一定要先了解,他的三段实习:第一个在照片社交APP(nice)做数据岗(接触到了很多大型的数据,对数据量有了非常深入的理解)七个月,第二个在电影推荐做算法(感觉浪费了时间)五个月,第三个摩拜旗下的单车做数据。
做大公司的逻辑业务开发不好(如果不直接找工作),不会有收获。做大公司的算法方面,需要具体而言,大多数都是专精,往下挖,不太好。但是也有大公司算法岗是那种apply model to some certain aspect,那就可以。保险还是推荐去start up实习,既可以从0开始自己去摸索很多东西,也可以接触面就很广。
他毕业论文是做新闻和微博的文本摘要,就是先提取topic,压缩关键句子,然后再把关键词变成一个逻辑上的句子。现在是做信息检索,信息检索涉及面很广,nlp啥的都会涉及到,也好找工作一些。他的张岩老师就是从数据库转到信息检索。
关于ai,因为谁都不知道原理,所以会用tf就行,别深究。外界火,但是学术界就那样,好用的时候就用。
关于组会,一开一整天,从十点到八点。首先是十点到一点,每周一个人讲论文和学习收获分享。这个人先要给老师审核十篇论文,精读五篇,然后做ppt讲三个小时。三点开始每个人半小时汇报一周情况和下周安排分配。老师给的东西不强求你做完。
关于读论文,其实一般是是读reference提到的文章和google关键词搜索找的文章。然后要做到看标题就知道大概讲的是什么用的是什么model。
kaggle上的评测比赛。
关于数据的准确性的评估,应该是门学问。一看数据量,二实验人的背景来判断数据的可信度,另外还有些不记得了
关于写论文,short反而好中一些,他说他之前被拒的原因是model太复杂评审不能理解。要找准论文切入点,他的标题是老板定的,这个会议本来是不在中国的,而且没有deadline,有点水。会议不查重,有很多句子是抄的。一些固定的单词用法。model也可以由别人的现成的改。