NLP：jieba和snownlp-白红宇

NLP：jieba和snownlp

阅读量：4060 次

发布时间：2019-05-25

本文共 347 字，大约阅读时间需要 1 分钟。

	jieba	snownlp
star	10k+	2k+
分词模式	精确模式：试图最精确分词；全模式：可以成词都扫描，但不能解决歧义；搜索引擎模式：在精确模式基础上再划分长词，用于搜索引擎分词；	只处理unicode编码
词性标注	有	有
关键词抽取	TF-IDF	有
情感分析	无	有
文本相似度计算	无	BM25

jieba

基于前缀词典识别词汇，生成句子中所有可能成词但DAG有向无环图

DP查找最大概率路径，找出基于词频但最大切分组合

对于未登陆词，基于汉字成词能力的HMM隐马尔可夫模型，Viterbi算法

jieba.cut( str, cut_all, hmm ) jieba.cut_for_search( str, hmm )  // 用于搜索引擎分词，粒度较细

snownlp

转载地址：http://xuwji.baihongyu.com/

你可能感兴趣的文章

IntelliJ IDEA 下的svn配置及使用的非常详细的图文总结

查看>>

【IntelliJ IDEA】idea导入项目只显示项目中的文件，不显示项目结构

Java大数据：全文搜索引擎Elasticsearch入门