最近高产似母猪,写了个基于AP的中文分词器,在Bakeoff-05的MSR语料上F值有96.11%。最重要的是,只训练了5个迭代;包含语料加载等IO操作在内,整个训练一共才花费23秒。应用裁剪算法去掉模型中80%的特征后,F值才下降不到0.1...
-
hadoop小学生: 基于结构化平均感知机的分词器Java实现
2019-01-14 10:59 来自版块 - 网络技术
-
hadoop小学生: HanLP分词命名实体提取详解
HanLP分词命名实体提取详解 分享一篇大神的关于hanlp分词命名实体提取的经验文章,文章中分享的内容略有一段时间(使用的hanlp版本比较老),最新一版的hanlp已经出来了,也可以去看看新版的hanlp在这方面有何提升! 文本挖掘是抽取有效...2019-01-11 14:14 来自版块 - 网络技术
-
hadoop小学生: pyhanlp 中文词性标注与分词简介
pyhanlp实现的分词器有很多,同时pyhanlp获取hanlp中分词器也有两种方式 第一种是直接从封装好的hanlp类中获取,这种获取方式一共可以获取五种分词器,而现在默认的就是第一种维特比分词器 1.维特比 (viterbi):效...2019-01-07 13:12 来自版块 - 网络技术
-
hadoop小学生: pyhanlp 共性分析与短语提取内容详解
简介 HanLP中的词语提取是基于互信息与信息熵。想要计算互信息与信息熵有限要做的是 文本分词进行共性分析。在作者的原文中,有几个问题,为了便于说明,这里首先给出短语提取的原理。在文末在给出pyhanlp的调用代码。 共性分析 互信息mi,左熵...2019-01-04 10:40 来自版块 - 网络技术
-
hadoop小学生: hanlp汉语自然语言处理入门基础知识介绍
自然语言处理定义: 自然语言处理是一门计算机科学、人工智能以及语言学的交叉学科。虽然语言只是人工智能的一部分(人工智能还包括计算机视觉等),但它是非常独特的一部分。这个星球上有许多生物拥有超过人类的视觉系统,但只有人类才拥有这么高级的语言。...2019-01-02 14:31 来自版块 - 网络技术
-
hadoop小学生: 简单有效的多标准中文分词详解
本文介绍一种简洁优雅的多标准中文分词方案,可联合多个不同标准的语料库训练单个模型,同时输出多标准的分词结果。通过不同语料库之间的迁移学习提升模型的性能,在10个语料库上的联合试验结果优于绝大部分单独训练的模型。模型参数和超参数全部共享,复杂度不随语料...2018-12-28 15:16 来自版块 - 网络技术
-
hadoop小学生: python调用hanlp分词包手记
python调用hanlp分词包手记 Hanlp作为一款重要的分词工具,本月初的时候看到大快搜索发布了hanlp的1.7版本,新增了文本聚类、流水线分词等功能。关于hanlp1.7版本的新功能,后面有使用的到时候在给大家分享。本篇分享一个在pyt...2018-12-26 13:01 来自版块 - 网络技术
-
hadoop小学生: 自然语言处理工具HanLP被收录中国大数据产业发展的创新技术新书《数据之翼》
在12月20日由中国电子信息产业发展研究院主办的2018中国软件大会上,大快搜索获评“2018中国大数据基础软件领域领军企业”,并成功入选中国数字化转型TOP100服务商。 图:大快搜索获评“2018中国大数据基础软件领域领军企业” 在本届20...2018-12-24 13:51 来自版块 - 网络技术
-
hadoop小学生: hanlp在Python环境中的安装失败后的解决方法
Hanlp是由一系列模型与算法组成的javag工具包,目标是普及自然语言处理再生环境中的应用。有很多人在安装hanlp的时候会遇到安装失败的情况,下面就是某大神的分享的在python环境中安装失败的解决方法,大家可以借鉴学习以下! 由于要使用ha...2018-12-19 10:51 来自版块 - 网络技术
-
hadoop小学生: pyhanlp用户自定义词典添加实例说明
pyhanlp是python版封装的的HanLP,项目地址:https://github.com/hankcs/pyhanlp 经过测试,HanLP比nltk在中文分词和实体识别方面都更好用. 如何向pyhanlp添加自定义的词典?以p...2018-12-17 13:21 来自版块 - 网络技术