nlp&word2vec踩坑

中文词法分析、中文文本分类、知识表示学习、词表示学习、文本挖掘

中文词法分析:

THULAC：一个高效的中文词法分析工具包包括中文分词、词性标注功能。已经提供C++、Java、Python版本。

中文文本分类:

THUCTC: 一个高效的中文文本分类工具提供高效的中文文本特征提取、分类训练和测试功能。

THUTag: 关键词抽取与社会标签推荐工具包GitHub - YeDeming/THUTag: A Package of Keyphrase Extraction and Social Tag Suggestion提供关键词抽取、社会标签推荐功能，包括TextRank、ExpandRank、Topical PageRank（TPR）、Tag-LDA、Word Trigger Model、Word Alignment Model等算法。

PLDA / PLDA+: 一个高效的LDA分布式学习工具包https://code.google.com/archive/p/plda/

知识表示学习:

知识表示学习工具包GitHub - Mrlyk423/Relation_Extraction: Knowledge
Base Embedding包括TransE、TransH、TransR、PTransE等算法。

词表示学习:

考虑字的词表示学习算法GitHub - Leonard-Xu/CWE

网络表示学习:

文本挖掘：

国内一个NLP工具：哈工大LTP：http://ir.hit.edu.cn/

中科院分词ICTCLAS

word2vec中的模型至今(2015.8)还是存在不少未解之谜，因此就有不少papers尝试去解释其中一些谜团，或者建立其与其他模型之间的联系，下面是paper list

Neural Word Embeddings as Implicit Matrix Factorization
Linguistic Regularities in Sparse and Explicit Word Representation
Random Walks on Context Spaces Towards an Explanation of the Mysteries of Semantic Word Embeddings