论坛
门户
内部优惠
喜欢
话题
VIP会员
搜索
新浪微博
登录
注册
100%
100%
首页
>
网络技术
>
网络技术
>
java分词工具hanlp介绍
回复
« 返回列表
hadoop小学生
精灵王
注册日期
2018-09-13
发帖数
160
QQ
3234520070
火币
360枚
粉丝
0
关注
0
加关注
写私信
打招呼
阅读:
6488
回复:
0
java分词工具hanlp介绍
楼主
#
更多
只看楼主
倒序阅读
发布于:2019-07-03 10:51
保存
100%
100%
[]
1
前几天(
6月28日
),在第
23届中国国际
软件
博览会上,
hanlp
这款
自然语言处理
工具荣获了“2019年第二十三届中国国际软件博览会优秀产品”。
图片:封面.jpg
HanLP
是由一系列模型预算法组成的工具包,结合深度神经网络的分布式自然语言处理,具有功能完善、性能高效、架构清晰、语料时新、可自定义等特点,提供词法分析、句法分析、文本分析和情感分析等功能,是
GitHub最受欢迎、用户量最大(超过13000个star)、社区活跃度最高的自然语言处理
技术
。
HanLP完全开源,包括词典。不依赖其他jar,底层采用了一系列高速的数据结构,如双数组Trie树、DAWG、AhoCorasickDoubleArrayTrie等,这些基础件都是开源的。官方模型训练自2014人民日报语料库,您也可以使用内置的工具训练自己的模型。
通过工具类
HanLP您可以一句话调用所有功能,文档详细,开箱即用。底层算法经过精心优化,极速
分词
模式下可达2,000万字/秒,
内存
仅需120MB。在IO方面,词典加载速度极快,只需500 ms即可快速启动。HanLP经过多次重构,
目前已经更新到了
1.7版本,新增并完善了
中文分词
、命名实体识别、信息抽取、文本分类、文本聚类、画法分析等功能,使用效率和适用性得到了大幅提升。
图片:图1.JPG
图片:图2.JPG
图片:图3.JPG
喜欢
0
评分
0
最新喜欢:
DKHadoop用着还不错!
回复
100%
发帖
回复
« 返回列表
普通帖
您需要登录后才可以回帖,
登录
或者
注册
100%
返回顶部
关闭
最新喜欢