中文分词

Ansj中文分词

这是一个基于n-Gram+CRF+HMM的中文分词的java实现。分词速度达到每秒钟大约200万字左右(mac air下测试),准确率能达到96%以上。

目前实现了.中文分词. 中文姓名识别 . 用户自定义词典,关键字提取,自动摘要,关键字标记等功能

可以应用到自然语言处理等方面,适用于对分词效果要求高的各种项目.

帮助文档:

3.x版本及之前 , 5.x版本及之后
在线测试地址

使用方法


Step1:下载 jar 包

  • 访问 http://maven.nlpcn.org/org/ansj/ 最好下载最新版 ansj_seg/
  • 同时下载nlp-lang.jar 需要和ansj_seg 配套..配套关系可以看jar包中的maven依赖,一般最新的ansj配最新的nlp-lang不会有错。
  • 导入到eclipse ,开始你的程序吧

Step2:从 Demo 开始

如果你第一次下载只想测试测试效果可以调用这个简易接口

扩展功能

  • 增加一些规则性Recognition,举例身份证号码识别,目前未完成的有 “时间识别”,“IP地址识别”,“邮箱识别”,“网址识别”,“词性识别”等...
  • 提供更加优化的CRF模型。替换ansj的默认模型。
  • 重构人名识别模型。增加机构名识别等模型。
  • 增加句法文法分析
  • 实现lstm的分词方式

Leave A Comment?