论坛
门户
内部优惠
喜欢
话题
VIP会员
搜索
新浪微博
登录
注册
100%
100%
首页
>
网络技术
>
网络技术
>
hanlp汉语自然语言处理入门基础知识介绍
回复
« 返回列表
hadoop小学生
精灵王
注册日期
2018-09-13
发帖数
160
QQ
3234520070
火币
360枚
粉丝
0
关注
0
加关注
写私信
打招呼
阅读:
4997
回复:
0
hanlp汉语自然语言处理入门基础知识介绍
楼主
#
更多
只看楼主
倒序阅读
发布于:2019-01-02 14:31
保存
100%
100%
[]
1
自然语言处理
定义:
自然语言处理是
一门计算机科学、人工智能以及语言学的交叉学科。虽然语言只是人工智能的一部分(人工智能还包括计算机视觉等),但它是非常独特的一部分。这个星球上有许多生物拥有超过人类的视觉系统,但只有人类才拥有这么高级的语言。
自然语言处理的目标是让计算机处理或说
“理解”自然语言,以完成有意义的任务,比如订机票购物或QA等。完全理解和表达语言是极其困难的,完美的语言理解等效于实现人工智能。
自然语言处理涉及的几个层次
:
图片:图片1.png
作为输入一共有两个来源,语音与文本。所以第一级是语音识别和
OCR或
依存句法分析
4(事实上,跳过分词虽然理所当然地不能做句法分析,但字符级也可以直接做不少应用)。接下来是形态学,援引《统计自然语言处理》中的定义:形态学(morphology):形态学(又称“词汇形态学”或“词法”)是语言学的一个分支,研究词的内部结构,包括屈折变化和构词法两个部分。由于词具有语音特征、句法特征和语义特征,形态学处于音位学、句法学和语义学的结合部位,所以形态学是每个语言学家都要关注的一门学科
。
hanlp
自然语言处理开发包:
从事
大数据
方面工作的人对自然语言处理必然都是不陌生的,在
Github上用户量最多的开源汉语自然语言处理工具是HanLP。HanLP的初始版本是在2014年初开发的,3月份的时候开始在Github上开源。2015年的时候集成在了大快搜索的DKNLP中,目前大快已经把DKNLP
技术
成果已经开源,并且整体装如HanLP项目,HanLP的版本已经到了V1.50。
Hanlp自然语言处理技术优势:
支持
中文分词
(
N-最短路分词、
crf分词
、索引分词、用户自定义词调、词性标注),命名实体识别(中国人民、音译人民、日本人民,地名,实体机构名识别),关键词提取,自动摘要,短语提取,拼音转换,简繁转换,文本推荐,
依存句法分析
(MaxEnt依存句法分析、神经网络依存句法分析)。提供Lucene查件,兼容Solr和ElasticSearch。
图片:图片2.jpg
Hanlp自然语言处理应用领域:
Hanlp已经被广泛应用于Lucene、Solr、ElasticSearch、
hadoop
、android、Resin等平台,有大量开源作者开发各种查件与拓展,并且被包装或移植到
python
、C#、R、
java
Script等语言上去。
图片:图片3.jpg
喜欢
0
评分
0
最新喜欢:
DKHadoop用着还不错!
回复
100%
发帖
回复
« 返回列表
普通帖
您需要登录后才可以回帖,
登录
或者
注册
100%
返回顶部
关闭
最新喜欢