中文词法分析、中文文本分类、知识表示学习、词表示学习、文本挖掘
中文词法分析:
THULAC:一个高效的中文词法分析工具包包括中文分词、词性标注功能。已经提供C++、Java、Python版本。
中文文本分类:
THUCTC: 一个高效的中文文本分类工具提供高效的中文文本特征提取、分类训练和测试功能。
THUTag: 关键词抽取与社会标签推荐工具包GitHub - YeDeming/THUTag: A Package of Keyphrase Extraction and Social Tag Suggestion提供关键词抽取、社会标签推荐功能,包括TextRank、ExpandRank、Topical PageRank(TPR)、Tag-LDA、Word Trigger Model、Word Alignment Model等算法。
PLDA / PLDA+: 一个高效的LDA分布式学习工具包https://code.google.com/archive/p/plda/
知识表示学习:
知识表示学习工具包GitHub - Mrlyk423/Relation_Extraction: Knowledge
Base Embedding包括TransE、TransH、TransR、PTransE等算法。
考虑实体描述的知识表示学习算法GitHub - xrb92/DKRL: Representation Learning of Knowledge Graphs with Entity Descriptions
词表示学习:
跨语言词表示学习算法Learning Cross-lingual Word Embeddings via Matrix Co-factorization
主题增强的词表示学习算法GitHub - largelymfs/topical_word_embeddings: A demo code for topical word embedding
可解释的词表示学习算法GitHub - SkTim/OIWE: Online Interpretable Word Embeddings
考虑字的词表示学习算法GitHub - Leonard-Xu/CWE
网络表示学习:
文本增强的网络表示学习算法GitHub - albertyang33/TADW: code for IJCAI2015 paper “Network Representation Learning with Rich Text Information”
文本挖掘:
国内一个NLP工具: 哈工大LTP:http://ir.hit.edu.cn/
中科院分词ICTCLAS
word2vec中的模型至今(2015.8)还是存在不少未解之谜,因此就有不少papers尝试去解释其中一些谜团,或者建立其与其他模型之间的联系,下面是paper list
Neural Word Embeddings as Implicit Matrix Factorization
Linguistic Regularities in Sparse and Explicit Word Representation
Random Walks on Context Spaces Towards an Explanation of the Mysteries of Semantic Word Embeddings