论坛
门户
内部优惠
喜欢
话题
VIP会员
搜索
新浪微博
登录
注册
100%
100%
首页
>
网络技术
>
网络技术
>
python使用jieba实现中文文档分词和去停用词
回复
« 返回列表
hadoop小学生
精灵王
注册日期
2018-09-13
发帖数
160
QQ
3234520070
火币
360枚
粉丝
0
关注
0
加关注
写私信
打招呼
阅读:
5456
回复:
0
python使用jieba实现中文文档分词和去停用词
楼主
#
更多
只看楼主
倒序阅读
发布于:2019-06-19 10:34
保存
100%
100%
[]
1
分词
工具的选择:
现在对于
中文分词
,分词工具有很多种,比如说:
jieba分词、thulac、SnowNLP等。在这篇文档中,笔者使用的jieba分词,并且基于
python
3环境,选择jieba分词的理由是其比较简单易学,容易上手,并且分词效果还很不错。
分词前的准备:
待分词的中文文档
存放分词之后的结果文档
中文停用词文档(用于去停用词,在网上可以找到很多)
分词之后的结果呈现:
图片:图1.png
图
1
去停用词和分词前的中文文档
图片:图2.png
图
2去停用词和分词之后的结果文档
分词和去停用词代码实现:
图片:图3.JPG
喜欢
0
评分
0
最新喜欢:
DKHadoop用着还不错!
回复
100%
发帖
回复
« 返回列表
普通帖
您需要登录后才可以回帖,
登录
或者
注册
100%
返回顶部
关闭
最新喜欢