您现在的位置： 365建站网 > 365文章 > 比较好的中文分词方案和分词器效果对比

比较好的中文分词方案和分词器效果对比

文章来源：365jz.com 点击数：764 更新时间：2017-12-05 08:10 参与评论

中文分词算法大概分为两大类

a.第一类是基于字符串匹配，即扫描字符串，如果发现字符串的子串和词相同，就算匹配。

这类分词通常会加入一些启发式规则，比如“正向/反向最大匹配”, “长词优先” 等策略

这类算法优点是速度块，都是O(n)时间复杂度，实现简单，效果尚可。
也有缺点，就是对歧义和未登录词处理不好。

歧义的例子很简单"长春市/长春/药店" "长春/市长/春药/店".
未登录词即词典中没有出现的词，当然也就处理不好。

ikanalyzer,paoding 等就是基于字符串匹配的分词。

b.第二类是基于统计以及机器学习的分词方式

这类分词基于人工标注的词性和统计特征，对中文进行建模，即根据观测到的数据（标注好的语料）对模型参数进行估计，即训练。在分词阶段再通过模型计算各种分词出现的概率，将概率最大的分词结果作为最终结果。常见的序列标注模型有HMM和CRF。

这类分词算法能很好处理歧义和未登录词问题，效果比前一类效果好，但是需要大量的人工标注数据，以及较慢的分词速度。

ICTCLAS是基于HMM的分词库。

我们在重构知乎搜索的时候，权衡标注工作量和性能，以及代码实现的复杂程度，我们考虑采用基于字符串匹配的分词方法

B. 除了标注量，准确率和效果的考量，分词粒度也是一个需要考虑的指标，

这里有一个真实的例子，即
"团购网站的本质是什么？"
这是一个知乎的问题，如果使用单一粒度的分词，如果我们有

团购
团购网
网站
团购网站
本质
是
什么

这些词在词典中，按最大匹配分词结果是
“团购网站/的/本质/是/什么”

当用户输入
“团购网的本质”
分词结果是
“团购网/的/本质”
团购网这个词显然是没有匹配的。

同样，如果按最小匹配分词，会有类似的问题。

因此，我们考虑基于字符串匹配的分词方法最好能够匹配出多粒度的结果，即
能分出
“团购网站/团购/团购网/网站/的/本质/是/什么”
这样多粒度的结果。

最终我们采用了ikanalyzer,
基于文本匹配，不需要投入大量人力进行训练和标注
可以自定词典，方便加入domain specific的词语
能分出多粒度的结果。
written in java.

本篇是本人在Solr的基础上，配置了中文分词器，并对其进行的性能测试总结，具体包括

使用mmseg4j、IKAnalyzer、Ansj，分别从创建索引效果、创建索引性能、数据搜索效率等方面进行衡量。

具体的Solr使用方法假设读者已有了基础，关于Solr的性能指标见前期的Solr博文 。

前提： Solr提供了一整套的数据检索方案，一台四核CPU、16G内存的机器，千兆网络。
需求： 1、对Solr创建索引的效率有一定的要求。

2、中文分词速度要快，搜索速度也要快。

3、中文分词准确率有一定的要求。

说明：以下是在Solr上分别配置不同的中文分词器，它们之间的比较。

1. 中文分词

1.1 中文分词器概述

名称	最近更新	速度(网上情报)	扩展性支持、其它
mmseg4j	2013	complex 60W字/s (1200 KB/s) simple 100W字/s (1900 KB/s)	使用sougou词库，也可自定义 (complex\simple\MaxWord)
IKAnalyzer	2012	IK2012 160W字/s (3000KB/s)	支持用户词典扩展定义、支持自定义停止词 (智能\细粒度)
Ansj	2014	BaseAnalysis 300W字/s hlAnalysis 40W字/s	支持用户自定义词典，可以分析出词性，有新词发现功能
paoding	2008	100W字/s	支持不限制个数的用户自定义词库

注意：

中文分词器可能与最新版本Lucene不兼容，配置好运行时出现TokenStream contractviolation错误，对于mmseg4j需要更改com.chenlb.mmseg4j.analysis.MMSegTokenizer源码，添加super.reset()在reset()内，重新编译后替换原jar。

1.2 mmseg4j

创建索引效果：

FieldValue内容：

京華时报ぼおえ2009年1月23日报道，뭄내ㅠㅛㅜ치ㅗ受一股来自中西伯利亚的强冷空气影响，本市出现大风降温天气，白天最高气温只有零下7摄氏度celsius degree，同时伴有6到7级的偏北风。

在词库中补充：

京華、뭄내、ぼおえ、受一股来

类型	结果
textMaxWord	京華\|时报\|ぼ\|お\|え\|2009\|年\|1\|月\|23\|日\|报道\|뭄\|내\|ㅠ\|ㅛ\|ㅜ\|치\|ㅗ\|受\|一股\|来\|自\|中\|西\|伯\|利\|亚\|的\|强\|冷\|空气\|影响\|本市\|出现\|大风\|降温\|天气\|白天\|最高\|气温\|只有\|零下\|7\|摄氏\|度\|celsius\|degree\|同时\|伴有\|6\|到\|7\|级\|的\|偏\|北风
textComplex	京華\|时报\|ぼおえ\|2009\|年\|1\|月\|23\|日\|报道\|뭄내ㅠㅛ\|ㅜ\|치\|ㅗ\|受一股来\|自\|中\|西伯利亚\|的\|强\|冷空气\|影响\|本市\|出现\|大风\|降温\|天气\|白天\|最高气温\|只有\|零下\|7\|摄氏度\|celsius\|degree\|同时\|伴有\|6\|到\|7\|级\|的\|偏\|北风
textSimple	京華\|时报\|ぼおえ\|2009\|年\|1\|月\|23\|日\|报道\|뭄내ㅠㅛ\|ㅜ\|치\|ㅗ\|受一股来\|自\|中西\|伯\|利\|亚\|的\|强\|冷空气\|影响\|本市\|出现\|大风\|降温\|天气\|白天\|最高气温\|只有\|零下\|7\|摄氏度\|celsius\|degree\|同时\|伴有\|6\|到\|7\|级\|的\|偏\|北风

创建索引效率：

17个各种类型字段，在solr博文中字段基础上，选一空string类型字段改为新类型，并写入文本内容（原纯文本Size约为400B，SolrInputDocument对象Size约为1130B）。

文本内容以词库中任选20词拼成的句子，每词大约3字，一句大约60字。

总数据量为2000W条数据，与2.2节相同配置。

字段类型	创建时间(s)	索引大小(GB)	网络(MB/s)	速率(W条/s)
textMaxWord	3115	4.95	6.0	0.64 (38W字/s)
textComplex	4860	4.3	5.0	0.41 (25W字/s)
textSimple	3027	4.32	6.5	0.66 (40W字/s)
string	2350	9.08	8.0	0.85 (57W字/s)

速度：在与“solr博文https://www.365jz.com/article/24001”中1.2节相同配置的情况下，分词索引创建速度要差于不使用分词的。

大小：分词索引大小要小于不使用分词的，经测试分词字段配置成autoGeneratePhraseQueries="false"对索引大小几乎没有影响。

数据搜索效率：

文本内容以词库中任选20词拼成的句子，每词大约3字，一句大约60字，总数据量为2000W条数据。

字段类型	关键词	搜索时间(ms)	结果(条)
textMaxWord	一不做二不休	180	2556
textComplex	一不做二不休	59	2648
textSimple	一不做二不休	62	2622
string	一不做二不休	20000	2689
textMaxWord	一个国家两种制度	22	2620
textComplex	一个国家两种制度	12	2687
textSimple	一个国家两种制度	10	2670
string	一个国家两种制度	15500	2657
textMaxWord	一些	24	15999
textComplex	一些	11	2687
textSimple	一些	9	2665
string	一些	14200	15758
textMaxWord	转辗反侧	15	2622
textComplex	转辗反侧	5	2632
textSimple	转辗反侧	9	2676
string	转辗反侧	15600	2665

补充：

对于非中文、数字、英文词汇，包括繁体字，在词典中加入新词汇即可。

mmseg4j对于“都是先从容易的做起”，不能把“容易”分出来，分词结果为“都是|先|从容|易|的|做起”。

网上推荐使用textMaxWord类型分词。

1.3 IKAnalyzer

创建索引效果：

FieldValue内容、在词库中补充均同1.2。

分词字段配置autoGeneratePhraseQueries="false"

类型	结果
细粒度	京華\|时报\|ぼおえ\|2009\|年\|1\|月\|23\|日报\|日\|报道\|뭄내ㅠㅛ\|ㅜ\|치\|ㅗ\|受一股来\|一股\|一\|股\|来自\|中西\|西伯利亚\|西伯\|伯利\|亚\|的\|强冷空气\|冷空气\|空气\|影响\|本市\|出现\|大风\|降温\|天气\|白天\|最高\|高气\|气温\|只有\|有\|零下\|零\|下\|7\|摄氏度\|摄氏\|度\|celsius\|degree\|同时\|伴有\|有\|6\|到\|7\|级\|的\|偏北风\|偏北\|北风

创建索引效率：

字段类型	创建时间(s)	索引大小(GB)	网络(MB/s)	速率(W条/s)
细粒度	3584	5.06	6.0	0.56 (33W字/s)

速度：与1.2比较，分词索引创建速度要略差于使用mmseg4j分词的。

大小：分词索引大小要略大于使用mmseg4j分词的。

数据搜索效率：

字段类型	关键词	搜索时间(ms)	结果(条)
细粒度	一不做二不休	400	5949255
细粒度	一个国家两种制度	500	6558449
细粒度	一些	300	5312103
细粒度	转辗反侧	15	10588

补充：

mmseg4j中textMaxWord，“一不做二不休”被分为：一|不做|二不|不休；

IKAnalyzer中细粒度，“一不做二不休”被分为：一不做二不休|一|不做|二不休|二|不休；

因此同样使用autoGeneratePhraseQueries="false"，“一不做二不休”搜索，IKAnalyzer搜索出来的结果要远多于mmseg4j。

1.4 Ansj

创建索引效果：

FieldValue内容同1.2，没有补充词库。

<analyzertype="index">

<tokenizerclass="org.ansj.solr.AnsjTokenizerFactory" conf="ansj.conf"rmPunc="true"/>

</analyzer>

<analyzertype="query">

<tokenizerclass="org.ansj.solr.AnsjTokenizerFactory" analysisType="1"rmPunc="true"/>

</analyzer>

</fieldType>

结果

京华|时报|ぼ|お|え|2009年|1月|23日|报道|，|뭄|내|ㅠ|ㅛ|ㅜ|치|ㅗ|受|一股|来自|中|西伯利亚|的|强|强冷空气|冷空气|影响|，|本市|出现|大风|降温|天气|，|白天|最高|气温|只|只有|有|零下|7摄氏度|摄氏|摄氏度|celsius||degree|，|同时|伴|伴有|有|6|到|7级|的|偏|偏北风|北风|。

“京華”二字被分词后变成了“京华”，据朋友介绍，它有将生僻字改字的Bug。

创建索引效率：

字段类型	创建时间(s)	索引大小(GB)	网络(MB/s)	速率(W条/s)
细粒度	3815	5.76	5.2	0.52 (31W字/s)

速度：与1.2、1.3比较，分词索引创建速度要略差于使用mmseg4j、IKAnalyzer分词的。

大小：分词索引大小要略大于使用mmseg4j、IKAnalyzer分词的。

数据搜索效率：

关键词	搜索时间(ms)	结果(条)
一不做二不休	200	2478
一个国家两种制度	15	0
一些	25	15665
转辗反侧	6	2655

1.5 总结

按分词后的结果进行搜索，若在分词字段配置autoGeneratePhraseQueries="false"，则是搜索条件先分词，再使用分词在结果中搜索，默认的是true。autoGeneratePhraseQueries="false"对创建索引速度没影响，对搜索结果有影响。也可以修改Solr的QueryPasser，对于输入的一个字符串，先进行相应分词，再使用分词结果在索引集中搜索。

精确或模糊*搜索，都是以词为单位搜索。精确搜索是指返回所有包含分词的结果。

分词器能对word、letter、digit等进行识别。

对于不使用分词的String类型进行搜索，只能通过模糊搜索*，搜到连字，以字为单位搜索。

在分词索引内搜索，速度较快；不分词，需要遍历所有文档，速度较慢。

如果需要分词的话，那分词速度是主要瓶颈。

综合考虑，mmseg4j是首选的中文分词器。

Python自然语言处理实践: 在NLTK中使用斯坦福中文分词器

斯坦福大学自然语言处理组是世界知名的NLP研究小组，他们提供了一系列开源的Java文本分析工具，包括分词器(Word Segmenter)，词性标注工具（Part-Of-Speech Tagger），命名实体识别工具（Named Entity Recognizer），句法分析器（Parser）等，可喜的事，他们还为这些工具训练了相应的中文模型，支持中文文本处理。在使用NLTK的过程中，发现当前版本的NLTK已经提供了相应的斯坦福文本处理工具接口，包括词性标注，命名实体识别和句法分析器的接口，不过可惜的是，没有提供分词器的接口。在google无果和阅读了相应的代码后，我决定照猫画虎为NLTK写一个斯坦福中文分词器接口，这样可以方便的在Python中调用斯坦福文本处理工具。

首先需要做一些准备工作，第一步当然是安装NLTK，这个可以参考我们在gensim的相关文章中的介绍《如何计算两个文档的相似度》，不过这里建议check github上最新的NLTK源代码并用“python setup.py install”的方式安装这个版本：https://github.com/nltk/nltk。这个版本新增了对于斯坦福句法分析器的接口，一些老的版本并没有，这个之后我们也许还会用来介绍。而我们也是在这个版本中添加的斯坦福分词器接口，其他版本也许会存在一些小问题。其次是安装Java运行环境，以Ubuntu 12.04为例，安装Java运行环境仅需要两步：

sudo apt-get install default-jre
sudo apt-get install default-jdk
最后，当然是最重要的，你需要下载斯坦福分词器的相应文件，包括源代码，模型文件，词典文件等。注意斯坦福分词器并不仅仅支持中文分词，还支持阿拉伯语的分词，需要下载的zip打包文件是这个: Download Stanford Word Segmenter version 2014-08-27，下载后解压。

准备工作就绪后，我们首先考虑的是在nltk源代码里的什么地方来添加这个接口文件。在nltk源代码包下，斯坦福词性标注器和命名实体识别工具的接口文件是这个：nltk/tag/stanford.py ，而句法分析器的接口文件是这个：nltk/parse/stanford.py , 虽然在nltk/tokenize/目录下有一个stanford.py文件，但是仅仅提供了一个针对英文的tokenizer工具PTBTokenizer的接口，没有针对斯坦福分词器的接口，于是我决定在nltk/tokenize下添加一个stanford_segmenter.py文件，作为nltk斯坦福中文分词器的接口文件。

如对本文有疑问，请提交到交流论坛，广大热心网友会为你解答！！点击进入论坛

您可能感兴趣的文章:

发表评论 (764人查看，0条评论): 请自觉遵守互联网相关的政策法规，严禁发布色情、暴力、反动的言论。

昵称：

最新评论

------分隔线----------------------------

上一篇：什么是Solr及为搜索引擎对大数据量创建索引
下一篇：Visual Studio error C2001:常量中有换行符错误解决办法

大家感兴趣的内容

比较好的中文分词方案和分词器效果对比

本篇是本人在Solr的基础上，配置了中文分词器，并对其进行的性能测试总结，具体包括

使用mmseg4j、IKAnalyzer、Ansj，分别从创建索引效果、创建索引性能、数据搜索效率等方面进行衡量。

具体的Solr使用方法假设读者已有了基础，关于Solr的性能指标见前期的Solr博文 。

1. 中文分词

1.1 中文分词器概述

1.2 mmseg4j

1.3 IKAnalyzer

1.4 Ansj

1.5 总结

您可能感兴趣的文章:

公司信息

快速入口

其它栏目

业务咨询