论坛
门户
内部优惠
喜欢
话题
VIP会员
搜索
新浪微博
登录
注册
100%
100%
首页
>
网络技术
>
网络技术
>
自然语言处理工具HanLP-基于层叠HMM地名识别
回复
« 返回列表
hadoop小学生
精灵王
注册日期
2018-09-13
发帖数
160
QQ
3234520070
火币
360枚
粉丝
0
关注
0
加关注
写私信
打招呼
阅读:
8338
回复:
0
自然语言处理工具HanLP-基于层叠HMM地名识别
楼主
#
更多
只看楼主
倒序阅读
发布于:2019-07-26 09:51
保存
100%
100%
[]
1
本篇接上一篇内容《
hanlp
-
基于
HMM-Viterbi
的
人名识别
原理介绍》
介绍一下层叠隐马的原理。
首先说一下
上一篇
介绍的人名识别效果对比:
1.
只有
Jieba
识别出的人名
准确率极低,基本为地名或复杂地名组成部分或复杂机构名组成部分。举例如下:
[1]
战乱的阿富汗地区,
qiang zhi
可随意买卖,
AK47
价格约
500
人民币
“阿富汗”被识别为人名。
[2]
安庆到桂林自驾游如何规划?
“桂林”被识别为人名。
[3] 2018
天津市和平分局招聘社区戒毒、社区康复工作人员成绩查询入口
“康复”被识别为人名。
2.
只有
HanLP
识别出的人名
除了特别常用姓氏的名字识别正确,其他的都识别错误。举例如下:
[1]
纳溪区副区长李明带队到“花田酒地”景区检查节前安全工作
“花田酒”被被识别为人名。
[2]
秀英“线上线下”齐发力 助力贫困户“微互动”拓宽农产品销路
“齐发力”被识别为人名。
[3]
紧急通知:秦报融媒粉团祖山一日游日报名费大调整!
“秦报”被识别为人名。
3. HanLP
与
Jieba
都识别出的人名
1.
非常用姓氏识别出的人名基本错误。
[1]
房产高管薪酬大起底 万科郁亮年薪
1189.9
万仅排第二
[2]
生生不息 南通支云发布汶川地震十周年海报呼吁赛前默哀
[3]
为什么伊郎不能有
he wu qi
,而美国有
he wu qi
?
2.
名字本身构成词时基本错误。
[1]
周口一村庄杨絮着火,对付杨絮用啥方法好呢?
[2]
上联
:
三国魏蜀吴,如何对下联?
[3]
上联
:
灯火辉煌万家乐。求下联?
如何解决这些
badcase
呢,要看你的时间了,如果时间充裕的话,可以调整发射概率文件也就是
nr.txt
文件。如果时间不充裕的话,比如我现在的情况,那就只保留常用姓氏,以及特别需要关注的人名了。
上一篇
的内容先说到这里,介绍
本篇
的主题
”基于层叠隐马的命名实体识别”我这里主要阅读的是这篇文章《基于层叠隐马尔可夫模型的中文命名实体识别》。层叠就是将模型级联起来的意思,因此系统的结构如下图所示:
图片:图1.jpg
如图所示,层叠隐马就是训练三个隐马模型,每个模型标注一种实体,三个模型采用级联形式连接。
不同的实体有不同的角色标注,实际就是特征,这些特征需要有语言学的知识,实际上就是你的阅读量,通过你大量阅读总结经验,比如姓氏可以作为名字的一个特征(张、王、李、赵),常用地名的后缀可以作为一个特征(省、市、区、县),机构名表处所的尾字可以作为一个特征(局、处、所、院)。这里地名的角色标注简表如下所示:
图片:图2.jpg
喜欢
0
评分
0
最新喜欢:
DKHadoop用着还不错!
回复
100%
发帖
回复
« 返回列表
普通帖
您需要登录后才可以回帖,
登录
或者
注册
100%
返回顶部
关闭
最新喜欢