论坛
门户
内部优惠
喜欢
话题
VIP会员
搜索
新浪微博
登录
注册
100%
100%
首页
>
网络技术
>
网络技术
>
Ansj与hanlp分词工具对比
回复
« 返回列表
hadoop小学生
精灵王
注册日期
2018-09-13
发帖数
160
QQ
3234520070
火币
360枚
粉丝
0
关注
0
加关注
写私信
打招呼
阅读:
5016
回复:
0
Ansj与hanlp分词工具对比
楼主
#
更多
只看楼主
倒序阅读
发布于:2019-06-21 13:59
保存
100%
100%
[]
1
一、
Ansj
1、利用DicAnalysis可以自定义词库:
图片:图1.JPG
2、但是自定义词库存在局限性,导致有些情况无效:
比如:
“不好用“的正常
分词
结果:“不好,用”。
(
1)当自定义词库”好用“时,词库无效,分词结果不变。
(
2)当自定义词库
“不好用”时,分词结果为:“不好用”,即此时自定义词库有效。
3、由于版本问题,可能DicAnalysis, ToAnalysis等类没有序列化,导致读取hdfs数据出错
此时需要继承序列化接口
1|case class myAnalysis() extends DicAnalysis with Serializable
2|val seg = new myAnalysis()
二、
hanlp
同样可以通过
CustomDictionary自定义词库:
图片:图2.JPG
但是在统计分词中,并不保证
自定义词典
中的词一定被切分出来,因此用户可在理解后果的情况下通过
1|StandardTokenizer.SEGMENT.enableCustomDictionaryForcing(true)强制生效
并发问题:
CustomDictionary是全局变量,不能在各节点中更改,否则会出现并发错误。
但是
HanLP.segment(sentence),只有一个参数,不能指定CustomDictionary,导致在各个excutors计算的时候全局CustomDictionary无效。
由于
CustomDictionary是全局变量,因此我采用一个方式:每个分区都对CustomDictionary加锁并添加一次词库,性能影响较小:
图片:图3.JPG
喜欢
0
评分
0
最新喜欢:
DKHadoop用着还不错!
回复
100%
发帖
回复
« 返回列表
普通帖
您需要登录后才可以回帖,
登录
或者
注册
100%
返回顶部
关闭
最新喜欢