论坛
门户
内部优惠
喜欢
话题
VIP会员
搜索
新浪微博
登录
注册
100%
100%
首页
>
网络技术
>
网络技术
>
部分常用分词工具使用整理
回复
« 返回列表
hadoop小学生
精灵王
注册日期
2018-09-13
发帖数
160
QQ
3234520070
火币
360枚
粉丝
0
关注
0
加关注
写私信
打招呼
阅读:
6481
回复:
0
部分常用分词工具使用整理
楼主
#
更多
只看楼主
倒序阅读
发布于:2019-05-29 09:55
保存
100%
100%
[]
1
以下
依存句法分析
4工具均能在
python
环境中直接调用(排名不分先后)。
1、
jieba(结巴分词) 免费使用
2、
hanlp
(汉语言处理包) 免费使用
3、
SnowNLP(中文的类库) 免费使用
4、
FoolNLTK(中文处理工具包) 免费使用
5、
Jiagu(甲骨NLP) 免费使用
6、
pyltp(哈工大语言云) 商用需要付费
7、
THULAC(清华中文词法分析工具包) 商用需要付费
8、
NLPIR(汉语分词系统) 付费使用
1、
jieba(结巴分词)
“结巴”
中文分词
:做最好的 Python 中文分词组件。
项目
Github地址:jieba
安装
:
pip install jieba
使用
:
import jieba
jieba.initialize()
text = '化妆和服装'
words = jieba.cut(text)
words = list(words)
print(words)
2、
HanLP(汉语言处理包)
HanLP是一系列模型与算法组成的NLP工具包,由大快搜索主导并完全开源,目标是普及
自然语言处理
在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。
项目
Github地址:
pyhanlp
安装:
pip install pyhanlp
使用
:
import pyhanlp
text = '化妆和服装'
words = []
for term in pyhanlp.HanLP.segment(text):
words.append(term.word)
print(words)
3、
SnowNLP(中文的类库)
SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用NLTK,所有的算法都是自己实现的,并且自带了一些训练好的字典。
项目
Github地址:snownlp
安装:
pip install snownlp
使用:
import snownlp
text = '化妆和服装'
words = snownlp.SnowNLP(text).words
print(words)
4、
FoolNLTK(中文处理工具包)
可能不是最快的开源中文分词,但很可能是最准的开源中文分词。
项目
Github地址:FoolNLTK
安装:
pip install foolnltk
使用:
import fool
text = '化妆和服装'
words = fool.cut(text)
print(words)
5、
Jiagu(甲骨NLP)
基于
BiLSTM模型,使用大规模语料训练而成。将提供中文分词、词性标注、命名实体识别、关键词抽取、文本摘要、新词发现等常用自然语言处理功能。参考了各大工具优缺点制作,将Jiagu回馈给
自然语言处理
1。
项目
Github地址:jiagu
安装:
pip3 install jiagu
使用:
import jiagu
jiagu.init()
text = '化妆和服装'
words = jiagu.seg(text)
print(words)
6、
pyltp(哈工大语言云)
pyltp 是 LTP 的 Python 封装,提供了分词,词性标注,命名实体识别,
依存句法分析
,语义角色标注的功能。
项目
Github地址:pyltp,3.4模型下载链接:
自然语言处理
8
安装:
pip install pyltp
使用:
import pyltp
segmentor = pyltp.Segmentor()
segmentor.load('model/ltp_data_v3.4.0/cws.model') # 模型放置的路径
text = '化妆和服装'
words = segmentor.segment(text)
words = list(words)
print(words)
7、
THULAC(清华中文词法分析工具包)
THULAC(THU Lexical Analyzer for Chinese)由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包,具有中文分词和词性标注功能。
项目
Github地址:THULAC-Python
安装:
pip install thulac
使用:
import thulac
thu = thulac.thulac(seg_only=True)
text = '化妆和服装'
words = thu.cut(text, text=True).split()
print(words)
NLPIR(汉语分词系统)
主要功能包括中文分词;英文分词;词性标注;命名实体识别;新词识别;关键词提取;支持用户专业词典与
微博
分析。
NLPIR系统支持多种编码、多种操作系统、多种开发语言与平台。
项目
Github地址:pynlpir
安装:
pip install pynlpir
下载证书覆盖到安装目录,
NLPIR.user 例如安装目录:/usr/lib64/python3.4/site-packages/pynlpir/Data
使用
:
import pynlpir
pynlpir.open()
text = '化妆和服装'
words = pynlpir.segment(text, pos_tagging=False)
print(words)
pynlpir.close()
喜欢
0
评分
0
最新喜欢:
DKHadoop用着还不错!
回复
100%
发帖
回复
« 返回列表
普通帖
您需要登录后才可以回帖,
登录
或者
注册
100%
返回顶部
关闭
最新喜欢