论坛
门户
内部优惠
喜欢
话题
VIP会员
搜索
新浪微博
登录
注册
100%
100%
首页
>
网络技术
>
网络技术
>
Hanlp自然语言处理工具的使用演练
回复
« 返回列表
hadoop小学生
精灵王
注册日期
2018-09-13
发帖数
160
QQ
3234520070
火币
360枚
粉丝
0
关注
0
加关注
写私信
打招呼
阅读:
3418
回复:
0
Hanlp自然语言处理工具的使用演练
楼主
#
更多
只看楼主
倒序阅读
发布于:2018-09-19 13:11
保存
100%
100%
[]
1
hanlp
是由一系列模型与算法组成的工具包,目标是普及
自然语言处理
在生产环境中的应用。Hanlp具备功能完善、性能高效、架构清洗、语料时新、可自定义的特点;提供词法分析(
中文分词
、磁性标注、命名实体识别)、句法分析、文本分类和情感分析等功能。
本篇
将用户输入的语句根据词库进行
分词
、关键词提取、摘要提取、词库维护。
工具类名称:
DKNLPBase
1、
标准分词
方法签名:
List<Term> StandardTokenizer.segment(
String txt
);
返回:分词列表。
签名参数说明
:
txt:要分词的语句。
范例:
下例验证一段话第
5
个分词是阿法狗。
程序清单
1
public void testSegment() throws Exception
{
String text = "
商品和服务
";
List<Term> termList = DKNLPBase.segment(text);
assertEquals("
商品
", termList.get(0).word);
assertEquals("
和
", termList.get(1).word);
assertEquals("
服务
", termList.get(2).word);
text = "
柯杰解说“李世石
VS
阿法狗第二局” 结局竟是这样
";
termList = DKNLPBase.segment(text);
assertEquals("
阿法狗
", termList.get(5).word); //
能够识别
"
阿法狗
"
}
2、
关键词提取
方法签名:
List<String>
extractKeyword(
String txt
,
int keySum
);
返回:关键词列表
.
签名参数说明
:
txt:
要提取关键词的语句,
keySum
要提取关键词的数量
范例:
给出一段话提取一个关键词是
“程序员”。
程序清单
2
public void testExtractKeyword() throws Exception
{
String content = "
程序员
(
英文
Programmer)
是从事程序开发、维护的专业人员。
" +
"
一般将程序员分为程序设计人员和程序编码人员,
" +
"
但两者的界限并不非常清楚,特别是在中国。
" +
"
软件
从业人员分为初级程序员、高级程序员、系统
" +
"
分析员和项目经理四大类。
";
List<String> keyword = DKNLPBase.extractKeyword(content, 1);
assertEquals(1, keyword.size());
assertEquals("
程序员
", keyword.get(0));
}
喜欢
0
评分
0
最新喜欢:
DKHadoop用着还不错!
回复
100%
发帖
回复
« 返回列表
普通帖
您需要登录后才可以回帖,
登录
或者
注册
100%
返回顶部
关闭
最新喜欢