论坛
门户
内部优惠
喜欢
话题
VIP会员
搜索
新浪微博
登录
注册
100%
100%
首页
>
网络技术
>
网络技术
>
如何在java中去除中文文本的停用词
回复
« 返回列表
hadoop小学生
精灵王
注册日期
2018-09-13
发帖数
160
QQ
3234520070
火币
360枚
粉丝
0
关注
0
加关注
写私信
打招呼
阅读:
21694
回复:
0
如何在java中去除中文文本的停用词
楼主
#
更多
只看楼主
倒序阅读
发布于:2019-04-30 09:32
保存
100%
100%
[]
1
1. 整体思路
第一步:先将中文文本进行
分词
,这里使用的
hanlp
-汉语言处理包进行中文文本分词。
第二步:使用停用词表,去除分好的词中的停用词。
2. 中文文本分词环境配置
使用的
HanLP-汉语言处理包进行中文文本分词。
·
HanLP-汉语言处理包
下载,可以去
github上下载
·
HanLP 的环境配置有两种方式:方式一、Maven;方式二、下载jar、data、hanlp.properties。
·
官方环境配置
步骤也可以在
github上查询到。
·
环境配置好后,
java
使用HanLP进行
中文分词
文档如下:hanlp.linrunsoft.com/doc.html
3. 下载停用词表
停用词表可以去百度
或者其他搜索引擎检索一份,很容易就找到!
4. 去除停用词工具类
使用这个工具类的之前,请先完成中文文本分词环境配置,并测试一下。停用词
.txt 文件路径请修改为自己的本地路径。
图片:图1.jpg
图
1
5. 工具类测试
5.1 测试代码
public class test {
public static void main(String args[]) {
try {
System.out.println(FormatUtil.RemovalOfStopWords("床前明月光,疑是地上霜。举头望明月,低头思故乡。"));
} catch (IOException e) {
e.printStackTrace();
}
}
5.2 测试结果
图片:图2.jpg
喜欢
0
评分
0
最新喜欢:
DKHadoop用着还不错!
回复
100%
发帖
回复
« 返回列表
普通帖
您需要登录后才可以回帖,
登录
或者
注册
100%
返回顶部
关闭
最新喜欢