说明·目前的实现方式是以远程词库的内容重新构建CustomDictionary.trie,demo主要是为了实现同步远程词库,对性能暂不作考虑,对性能要求要以CustomDictionary.dat为基础实现按hanlp作者述 trie后期可能会取消 目前CustomDictio... 全文

2019-04-26 11:12 来自版块 - 网络技术

支持中文分词(N-最短路分词、CRF分词、索引分词、用户自定义词典、词性标注),命名实体识别(中国人名、音译人名、日本人名、地名、实体机构名识别),关键词提取,自动摘要,短语提取,拼音转换,简繁转换,文本推荐,依存句法分析(MaxEnt依存句法分析、CRF依存句法分析) 全文

2019-04-24 13:10 来自版块 - 网络技术

基于 HanLP 的 Elasticsearch 中文分词插件,核心功能: 兼容 ES 5.x-7.x;内置词典,无需额外配置即可使用;支持用户自定义词典;支持远程词典热更新(待开发);内置多种分词模式,适合不同场景;拼音过滤器(待开发);简繁体转换过滤器(待开发)。 版本插件... 全文

2019-04-22 14:52 来自版块 - 网络技术

文章摘自github,本次测试选用 HanLP 1.6.0 , LTP 3.4.0 测试思路 使用同一份语料训练两个分词库,同一份测试数据测试两个分词库的性能。 语料库选取1998年01月的人民日报语料库。199801人民日报语料 该词库带有词性标注,为了遵循LTP的训练数据集格... 全文

2019-04-19 11:09 来自版块 - 网络技术

portable版 portable版零配置,仅提供中文分词、简繁拼音、同义词等功能。只需在build.gradle中加入依赖: dependencies { compile 'com.hankcs:hanlp:portable-1.6.8'} ... 全文

2019-04-17 10:57 来自版块 - 网络技术

HanLP的Python接口,支持自动下载与升级HanLP,兼容py2、py3。 安装pip install pyhanlp使用命令hanlp来验证安装,如因网络等原因自动安装失败,可参考手动配置或Windows指南。命令行中文分词使用... 全文

2019-04-12 11:16 来自版块 - 网络技术

本章是接前两篇《分词工具Hanlp基于感知机的中文分词框架》和《基于结构化感知机的词性标注与命名实体识别框架》的。本系统将同时进行中文分词、词性标注与命名实体识别3个任务的子系统称为“词法分析器”。 全文

2019-04-10 11:09 来自版块 - 网络技术

上周就关于《结构化感知机标注框架的内容》已经分享了一篇《分词工具Hanlp基于感知机的中文分词框架》,本篇接上一篇内容,继续分享词性标注与命名实体识别框架的内容。 全文

2019-04-08 14:49 来自版块 - 网络技术

结构化感知机标注框架是一套利用感知机做序列标注任务,并且应用到中文分词、词性标注与命名实体识别这三个问题的完整在线学习框架,该框架利用1个算法解决3个问题,时自治同意的系统,同时三个任务顺序渐进,构成流水线式的系统。本文先介绍中文分词框架部分内容。中文分词训练只需指定输入语料的路... 全文

2019-04-03 11:11 来自版块 - 网络技术

由于项目需要在Android手机设备上实现汉字转拼音功能(支持多音字),于是首先想到了Pinyin4j+多音字映射对照表的实现方案,并在项目中试用了一段时间,发现数据量大时,其耗时非常严重。后来寻找其他方案,在github上找到了HanLP开源库,其多音字转换速度非常快,但是没有... 全文

2019-04-01 15:56 来自版块 - 网络技术

汉字转拼音HanLP中的汉字转拼音功能也十分的强大。说明:l HanLP不仅支持基础的汉字转拼音,还支持声母、韵母、音调、音标和输入法首字母首声母功能。l HanLP能够识别多音字,也能给繁体中文注拼音。l 最重要的是,HanLP采用的模式匹配升级到AhoCorasickDoub... 全文

2019-03-29 13:32 来自版块 - 网络技术

繁简转换HanLP几乎实现了所有我们需要的繁简转换方式,并且已经封装到了HanLP中,使得我们可以轻松的使用,而分词器中已经默认支持多种繁简格式或者混合。这里我们不再做过多描述。说明:·HanLP能够识别简繁分歧词,比如打印机=印表機。许多简繁转换工具不能区分“以后”“皇后”中的... 全文

2019-03-29 10:34 来自版块 - 网络技术

N-最短路径 是中科院分词工具NLPIR进行分词用到的一个重要算法,张华平、刘群老师在论文《基于N-最短路径方法的中文词语粗分模型》中做了比较详细的介绍。该算法算法基本思想很简单,就是给定一待处理字串,根据词典,找出词典中所有可能的词,构造出字串的一个有向无环图,算出从开始到结束... 全文

2019-03-25 13:56 来自版块 - 网络技术

Hanlp1.7版本在去年下半年的时候就随大快的DKH1.6版本同时发布了,截至目前1.7大版本也更新到了1.7.1了。本篇分别就1.7.0和1.7.1中新增的功能做一个简单的汇总介绍。 全文

2019-03-22 09:52 来自版块 - 网络技术

1、hanlp简介HanLP是一系列模型与算法组成的NLP工具包,由大快搜索主导并完全开源,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。开源网址:HanLP: Han Language Processing但由于... 全文

2019-03-20 11:37 来自版块 - 网络技术

我们在使用hanlp词典进行分词的时候,难免会出现分词不准确的情况,原因是由于内置词典中并没有收录当前的这个词,也就是我们所说的未登录词,只要把这个词加入到内置词典中就可以解决类似问题,如何操作,下面我们就看一下具体的步骤 1、找到hanlp内置词典目录 位于D:\hnlp\ha... 全文

2019-03-18 15:10 来自版块 - 网络技术

使用过hanlp的都知道hanlp中有许多词典,它们的格式都是非常相似的,形式都是文本文档,随时可以修改。本篇文章详细介绍了hanlp中的词典格式,以满足用户自定义的需要。基本格式词典分为词频词性词典和词频词典。1、词频词性词典(如CoreNatureDictionary.txt... 全文

2019-03-15 11:13 来自版块 - 网络技术

词图词图指的是句子中所有词可能构成的图。如果一个词A的下一个词可能是B的话,那么A和B之间具有一条路径E(A,B)。一个词可能有多个后续,同时也可能有多个前驱,它们构成的图我称作词图。需要稀疏2维矩阵模型,以一个词的起始位置作为行,终止位置作为列,可以得到一个二维矩阵。例如:“他... 全文

2019-03-13 13:21 来自版块 - 网络技术

新发布1.7.0版本的hanlp自然语言处理工具包差不多已经有半年时间了,最近也是一直在整理这个新版本hanlp分词工具的相关内容。不过按照当前的整理进度,还需要一段时间再给大家详细分享整理的内容。昨天正好看到的这篇关于关于1.7.0版本hanlp分词在spark中的使用介绍的文... 全文

2019-03-11 15:27 来自版块 - 网络技术

Hanlp在离线环境下的安装我是没有尝试过的,分享SunJW_2017的这篇文章就是关于如何在离线环境下安装hanlp的。我们可以一起来学习一下!HanLP是一款优秀的中文自然语言处理工具,可以实现包括分词、词性标注、实体识别在内容诸多功能,详情见其项目主页。另外,该工具包还提供... 全文

2019-03-08 10:51 来自版块 - 网络技术


返回顶部