聚合国内IT技术精华文章,分享IT技术精华,帮助IT从业人士成长

在Python中调用Java扩展包:HanLP

2016-10-30 06:20 浏览: 11570 次 我要评论(0 条) 字号:

最近在研究中文分词及自然语言相关的内容,关注到JAVA环境下的HanLP,HanLP是一个致力于向生产环境普及NLP技术的开源Java工具包,支持中文分词(N-最短路分词、CRF分词、索引分词、用户自定义词典、词性标注),命名实体识别(中国人名、音译人名、日本人名、地名、实体机构名识别),关键词提取,自动摘要,短语提取,拼音转换,简繁转换,文本推荐,依存句法分析(MaxEnt依存句法分析、神经网络依存句法分析)。

由于自己才疏学浅,对JAVA方面了解不多,所以打算在Python环境下进行测试。

让Python可以调用Java程序

JPype是一个能够让 Python 代码方便地调用 Java 代码的工具,JPype并没有像IKVM(一款可以在.NET环境中运行JAVA代码的工具)那样实现自己的JVM,而是以pipe方式调用原生JVM。所以如果要使用JPype就需要先安装JDK。安装JDK的时必须分清楚位数,如果电脑中的Python的位数是32位,那么JDK也必须32位,如果电脑中的Python是64位,则必须安装64位的JDK。另外环境变量也要设置好。

安装JPype

JPype针对Python会有2个版本:

可以使用Pip进行安装,或直接下载已经编译好的版本进行安装,安装过程中需要注意,由于源码中有一部分C代码,所以自己编译安装时需要先解决编译工具的问题

测试JAVA扩展包:HanLP

安装完JPype以后执行JAVA代码就非常的方便,先来一段简单的“Hello World”输出:

import jpype
jvmPath = jpype.getDefaultJVMPath()
jpype.startJVM(jvmPath)
jpype.java.lang.System.out.println("Hello World!")
jpype.shutdownJVM()

如果执行的结果如下,则表明安装成功:

Hello World!
JVM activity report     :
	classes loaded       : 31
JVM has been shutdown

如果执行结果是这样的:

Traceback (most recent call last):
  File "G:/TextAnalysis/java.py", line 5, in <module>
    startJVM(getDefaultJVMPath())
  File "C:Python27libsite-packagesjpype_core.py", line 44, in startJVM
    _jpype.startup(jvm, tuple(args), True)
RuntimeError: First paramter must be a string or unicode at src/native/python/jpype_module.cpp:31

很有可能是没有配置JDK的环境变量或安装的JDK的位数与Python的位数不一致。导致 getDefaultJVMPath()  方法返回的是 None

下载HanLP

  • 你可以直接下载Portable版的jar,零配置。
  • 也可以使用自定义的HanLP——HanLP由3部分组成:类库hanlp.jar包、模型data包、配置文件hanlp.properties,请前往项目主页下载最新版:https://github.com/hankcs/HanLP/releases。对于非portable版,下载后,你需要编辑配置文件第一行的root指向data的父目录。

这里,假设新建了一个目录(假定为C:hanlp),把hanlp.jar和hanlp.properties(portable版的话,仅需一个hanlp-portable.jar)放进去。

Python调用

以下是我的测试:(使用的是Python,与Python3 相比多了 .toString() 这一操作)

#!/usr/bin/env python
# -*- coding: utf-8 -*-

from jpype import *


startJVM(getDefaultJVMPath(), "-Djava.class.path=G:TextAnalysislibshanlp-portable-1.3.1.jar;G:TextAnalysislibs")
HanLP = JClass('com.hankcs.hanlp.HanLP')

my_words = u'HanLP是一个致力于向生产环境普及NLP技术的开源Java工具包'

# 标准分词
print(HanLP.segment(my_words).toString())

#索引分词
IndexTokenizer = JClass('com.hankcs.hanlp.tokenizer.IndexTokenizer')
print(IndexTokenizer.segment(my_words).toString())

# 关键词提取
document = u"JPype是一个能够让 Python 代码方便地调用 Java 代码的工具," 
           u"JPype并没有像IKVM(一款可以在.NET环境中运行JAVA代码的工具)那样实现自己的JVM," 
           u"而是以pipe方式调用原生JVM。如果要使用JPype就需要先安装JDK。"
print(HanLP.extractKeyword(document, 3).toString())

# 自动摘要
print(HanLP.extractSummary(document, 2).toString())

shutdownJVM()

参考文章:



网友评论已有0条评论, 我也要评论

发表评论

*

* (保密)

Ctrl+Enter 快捷回复