论坛
门户
内部优惠
喜欢
话题
VIP会员
搜索
新浪微博
登录
注册
100%
100%
首页
>
网络技术
>
网络技术
>
Hanlp在java中文分词中的使用介绍
回复
« 返回列表
hadoop小学生
精灵王
注册日期
2018-09-13
发帖数
160
QQ
3234520070
火币
360枚
粉丝
0
关注
0
加关注
写私信
打招呼
阅读:
4372
回复:
0
Hanlp在java中文分词中的使用介绍
楼主
#
更多
只看楼主
倒序阅读
发布于:2018-11-30 13:52
保存
100%
100%
[]
1
项目结构
图片:图1.jpg
该项目中,
.jar
和
data
文件夹和
.properties
需要从官网
/github
下载,
data
文件夹下载
项目配置
修改
hanlp
.properties:
1 #/Test/src/hanlp.properties:
2 #
本配置文件中的路径的根目录
3 #root=E:/SourceCode/eclipsePlace/Test
4 root=./
5 ......
配置文件的作用是告诉
HanLP
数据包即
data
文件夹的位置,
root
的值为
data
文件夹的父目录,可以使用绝对路径或相对路径。
测试代码
1
package com.test;
2
3
import
java
.util.List;
4
5
import com.hankcs.hanlp.HanLP;
6
import com.hankcs.hanlp.seg.common.Term;
7
import com.hankcs.hanlp.suggest.Suggester;
8
import com.hankcs.hanlp.tokenizer.NLPTokenizer;
9
10
public class MainTest {
11
public static void main(String[] args) {
12
System.out.println("
首次编译运行时,
HanLP
会自动构建词典缓存,请稍候……
\n");
13
//
第一次运行会有文件找不到的错误但不影响运行,缓存完成后就不会再有了
14
System.out.println("
标准
分词
:
");
15
System.out.println(HanLP.segment("
你好,欢迎使用
HanLP
!
"));
16
System.out.println("\n");
17
18
List<Term> termList = NLPTokenizer.segment("
中国科学院计算
技术
研究所的宗成庆教授正在教授
自然语言处理
课程
");
19
System.out.println("NLP
分词:
");
20
System.out.println(termList);
21
System.out.println("\n");
22
23
System.out.println("
智能推荐:
");
24
getSegement();
25
System.out.println("\n");
26
27
System.out.println("
关键字提取:
");
28
getMainIdea();
29
System.out.println("\n");
30
31
System.out.println("
自动摘要:
");
32
getZhaiYao();
33
System.out.println("\n");
34
35
System.out.println("
短语提取:
");
36
getDuanYu();
37
System.out.println("\n");
38
}
39
40
/**
41
*
智能推荐部分
42
*/
43
public static void getSegement() {
44
Suggester suggester = new Suggester();
45
String[] titleArray = ("
威廉王子发表演说 呼吁保护野生动物
\n" + "
《时代》年度人物最终入围名单出炉 普京
马云
入选
\n" + "
“黑格比”横扫菲:菲吸取“海燕”经验及早疏散
\n"
46
+ "
日本保密法将正式生效 日媒指其损害国民知情权
\n" + "
英报告说空气污染带来“公共健康危机”
").split("\\n");
47
for (String title : titleArray) {
48
suggester.addSentence(title);
49
}
50
System.out.println(suggester.suggest("
发言
", 1)); //
语义
51
System.out.println(suggester.suggest("
危机公共
", 1)); //
字符
52
System.out.println(suggester.suggest("mayun", 1)); //
拼音
53
}
54
55
/**
56
*
关键字提取
57
*/
58
public static void getMainIdea() {
59
String content = "
程序员
(
英文
Programmer)
是从事程序开发、维护的专业人员。一般将程序员分为程序设计人员和程序编码人员,但两者的界限并不非常清楚,特别是在中国。
软件
从业人员分为初级程序员、高级程序员、系统分析员和项目经理四大类。
";
60
List<String> keywordList = HanLP.extractKeyword(content, 5);
62
System.out.println(keywordList);
63
}
64
65
/**
66
*
自动摘要
67
*/
68
public static void getZhaiYao() {
69
String document = "
算法可大致分为基本算法、数据结构的算法、数论算法、计算几何的算法、图的算法、动态规划以及数值分析、加密算法、排序算法、检索算法、随机化算法、并行算法、厄米变形模型、随机森林算法。
\n"
70
+ "
算法可以宽泛的分为三类,
\n" + "
一,有限的确定性算法,这类算法在有限的一段时间内终止。他们可能要花很长时间来执行指定的任务,但仍将在一定的时间内终止。这类算法得出的结果常取决于输入值。
\n"
71
+ "
二,有限的非确定算法,这类算法在有限的时间内终止。而,对于一个(或一些)给定的数值,算法的结果并不是唯一的或确定的。
\n"
72
+ "
三,无限的算法,是那些由于没有定义终止定义条件,或定义的条件无法由输入的数据满足而不终止运行的算法。通常,无限算法的产生是由于未能确定的定义终止条件。
";
73
List<String> sentenceList = HanLP.extractSummary(document, 3);
74
System.out.println(sentenceList);
75
}
76
77
/**
78
*
短语提取
79
*/
80
public static void getDuanYu() {
81
String text = "
算法工程师
\n"
82
+ "
算法(
Algorithm
)是一系列解决问题的清晰指令,也就是说,能够对一定规范的输入,在有限时间内获得所要求的输出。如果一个算法有缺陷,或不适合于某个问题,执行这个算法将不会解决这个问题。不同的算法可能用不同的时间、空间或效率来完成同样的任务。一个算法的优劣可以用空间复杂度与时间复杂度来衡量。算法工程师就是利用算法处理事物的人。
\n"
83
+ "\n" + "1
职位简介
\n" + "
算法工程师是一个非常高端的职位;
\n" + "
专业要求:计算机、电子、通信、数学等相关专业;
\n"
84
+ "
学历要求:本科及其以上的学历,大多数是硕士学历及其以上;
\n" + "
语言要求:英语要求是熟练,基本上能阅读国外专业书刊;
\n"
85
+ "
必须掌握计算机相关知识,熟练使用仿真工具
MATLAB
等,必须会一门编程语言。
\n" + "\n" + "2
研究方向
\n"
86
+ "
视频算法工程师、图像处理算法工程师、音频算法工程师 通信基带算法工程师
\n" + "\n" + "3
目前国内外状况
\n"
87
+ "
目前国内从事算法研究的工程师不少,但是高级算法工程师却很少,是一个非常紧缺的专业工程师。算法工程师根据研究领域来分主要有音频
/
视频算法处理、图像技术方面的二维信息算法处理和通信物理层、雷达信号处理、生物医学信号处理等领域的一维信息算法处理。
\n"
88
+ "
在计算机音视频和图形图像技术等二维信息算法处理方面目前比较先进的视频处理算法:机器视觉成为此类算法研究的核心;另外还有
2D
转
3D
算法
(2D-to-3D conversion)
,去隔行算法
(de-
inter
lacing)
,运动估计运动补偿算法
(Motion estimation/Motion Compensation)
,去噪算法
(Noise Reduction)
,缩放算法
(scaling)
,锐化处理算法
(Sharpness)
,超分辨率算法
(Super Resolution),
手势识别
(gesture recognition),
人脸识别
(face recognition)
。
\n"
89
+ "
在通信物理层等一维信息领域目前常用的算法:无线领域的
RRM
、
RTT
,传送领域的调制解调、信道均衡、信号检测、网络优化、信号分解等。
\n" + "
另外数据挖掘、互联网搜索算法也成为当今的热门方向。
\n"
90
+ "
算法工程师逐渐往人工智能方向发展。
";
91
List<String> phraseList = HanLP.extractPhrase(text, 10);
92
System.out.println(phraseList);
93
}
94
}
运行结果
图片:图2.png
喜欢
0
评分
0
最新喜欢:
DKHadoop用着还不错!
回复
100%
发帖
回复
« 返回列表
普通帖
您需要登录后才可以回帖,
登录
或者
注册
100%
返回顶部
关闭
最新喜欢