博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
NLP:jieba和snownlp
阅读量:4060 次
发布时间:2019-05-25

本文共 347 字,大约阅读时间需要 1 分钟。

jieba snownlp
star 10k+ 2k+
分词模式 精确模式:试图最精确分词;全模式:可以成词都扫描,但不能解决歧义;搜索引擎模式:在精确模式基础上再划分长词,用于搜索引擎分词; 只处理unicode编码
词性标注
关键词抽取 TF-IDF
情感分析
文本相似度计算 BM25
  • jieba

基于前缀词典识别词汇,生成句子中所有可能成词但DAG有向无环图

DP查找最大概率路径,找出基于词频但最大切分组合
对于未登陆词,基于汉字成词能力的HMM隐马尔可夫模型,Viterbi算法

jieba.cut( str, cut_all, hmm ) jieba.cut_for_search( str, hmm )  // 用于搜索引擎分词,粒度较细
  • snownlp

转载地址:http://xuwji.baihongyu.com/

你可能感兴趣的文章
IntelliJ IDEA 下的svn配置及使用的非常详细的图文总结
查看>>
【IntelliJ IDEA】idea导入项目只显示项目中的文件,不显示项目结构
查看>>
ssh 如何方便的切换到其他节点??
查看>>
JSP中文乱码总结
查看>>
Java-IO-File类
查看>>
Java-IO-java的IO流
查看>>
Java-IO-输入/输出流体系
查看>>
Java实现DES加密解密
查看>>
HTML基础
查看>>
Java IO
查看>>
Java NIO
查看>>
Java大数据:Hbase分布式存储入门
查看>>
Java大数据:全文搜索引擎Elasticsearch入门
查看>>
大数据学习:Hadoop入门学习书单
查看>>
大数据学习:Spark SQL入门简介
查看>>
大数据学习:Spark RDD操作入门
查看>>
大数据框架:Spark 生态实时流计算
查看>>
大数据入门:Hive和Hbase区别对比
查看>>
大数据入门:ZooKeeper工作原理
查看>>
大数据入门:Zookeeper结构体系
查看>>