中文分词算法大概分为两大类
a.第一类是基于字符串匹配,即扫描字符串,如果发现字符串的子串和词相同,就算匹配。
这类分词通常会加入一些启发式规则,比如“正向/反向最大匹配”, “长词优先” 等策略
这类算法优点是速度块,都是O(n)时间复杂度,实现简单,效果尚可。
也有缺点,就是对歧义和未登录词处理不好。
歧义的例子很简单"长春市/长春/药店" "长春/市长/春药/店".
未登录词即词典中没有出现的词,当然也就处理不好。
ikanalyzer,paoding 等就是基于字符串匹配的分词。
b.第二类是基于统计以及机器学习的分词方式
这类分词基于人工标注的词性和统计特征,对中文进行建模,即根据观测到的数据(标注好的语料)对模型参数进行估计,即训练。 在分词阶段再通过模型计算各种分词出现的概率,将概率最大的分词结果作为最终结果。常见的序列标注模型有HMM和CRF。
这类分词算法能很好处理歧义和未登录词问题,效果比前一类效果好,但是需要大量的人工标注数据,以及较慢的分词速度。
ICTCLAS是基于HMM的分词库。
我们在重构知乎搜索的时候,权衡标注工作量和性能,以及代码实现的复杂程度,我们考虑采用基于字符串匹配的分词方法
B. 除了标注量,准确率和效果的考量,分词粒度也是一个需要考虑的指标,
这里有一个真实的例子,即
"团购网站的本质是什么?"
这是一个知乎的问题,如果使用单一粒度的分词,如果我们有
团购
团购网
网站
团购网站
本质
是
什么
这些词在词典中,按最大匹配分词结果是
“团购网站/的/本质/是/什么”
当用户输入
“团购网的本质”
分词结果是
“团购网/的/本质”
团购网这个词显然是没有匹配的。
同样,如果按最小匹配分词,会有类似的问题。
因此,我们考虑基于字符串匹配的分词方法最好能够匹配出多粒度的结果,即
能分出
“团购网站/团购/团购网/网站/的/本质/是/什么”
这样多粒度的结果。
前提: Solr提供了一整套的数据检索方案,一台四核CPU、16G内存的机器,千兆网络。
需求: 1、对Solr创建索引的效率有一定的要求。
2、中文分词速度要快,搜索速度也要快。
3、中文分词准确率有一定的要求。
说明: 以下是在Solr上分别配置不同的中文分词器,它们之间的比较。
名称 |
最近更新 |
速度(网上情报) |
扩展性支持、其它 |
mmseg4j |
2013 |
complex 60W字/s (1200 KB/s) simple 100W字/s (1900 KB/s) |
使用sougou词库,也可自定义 (complex\simple\MaxWord) |
IKAnalyzer |
2012 |
IK2012 160W字/s (3000KB/s) |
支持用户词典扩展定义、支持自定义停止词 (智能\细粒度) |
Ansj |
2014 |
BaseAnalysis 300W字/s hlAnalysis 40W字/s |
支持用户自定义词典,可以分析出词性,有新词发现功能 |
paoding |
2008 |
100W字/s |
支持不限制个数的用户自定义词库 |
注意:
中文分词器可能与最新版本Lucene不兼容,配置好运行时出现TokenStream contractviolation错误,对于mmseg4j需要更改com.chenlb.mmseg4j.analysis.MMSegTokenizer源码,添加super.reset()在reset()内,重新编译后替换原jar。
创建索引效果:
FieldValue内容: |
京華时报ぼおえ2009年1月23日报道,뭄내ㅠㅛㅜ치ㅗ受一股来自中西伯利亚的强冷空气影响,本市出现大风降温天气,白天最高气温只有零下7摄氏度celsius degree,同时伴有6到7级的偏北风。 |
在词库中补充: |
京華、뭄내、ぼおえ、受一股来 |
类型 |
结果 |
textMaxWord |
京華|时报|ぼ|お|え|2009|年|1|月|23|日|报道|뭄|내|ㅠ|ㅛ|ㅜ|치|ㅗ|受|一股|来|自|中|西|伯|利|亚|的|强|冷|空气|影响|本市|出现|大风|降温|天气|白天|最高|气温|只有|零下|7|摄氏|度|celsius|degree|同时|伴有|6|到|7|级|的|偏|北风 |
textComplex |
京華|时报|ぼおえ|2009|年|1|月|23|日|报道|뭄내ㅠㅛ|ㅜ|치|ㅗ|受一股来|自|中|西伯利亚|的|强|冷空气|影响|本市|出现|大风|降温|天气|白天|最高气温|只有|零下|7|摄氏度|celsius|degree|同时|伴有|6|到|7|级|的|偏|北风 |
textSimple |
京華|时报|ぼおえ|2009|年|1|月|23|日|报道|뭄내ㅠㅛ|ㅜ|치|ㅗ|受一股来|自|中西|伯|利|亚|的|强|冷空气|影响|本市|出现|大风|降温|天气|白天|最高气温|只有|零下|7|摄氏度|celsius|degree|同时|伴有|6|到|7|级|的|偏|北风 |
创建索引效率:
17个各种类型字段,在solr博文中字段基础上,选一空string类型字段改为新类型,并写入文本内容(原纯文本Size约为400B,SolrInputDocument对象Size约为1130B)。
文本内容以词库中任选20词拼成的句子,每词大约3字,一句大约60字。
总数据量为2000W条数据,与2.2节相同配置。
字段类型 |
创建时间(s) |
索引大小(GB) |
网络(MB/s) |
速率(W条/s) |
textMaxWord |
3115 |
4.95 |
6.0 |
0.64 (38W字/s) |
textComplex |
4860 |
4.3 |
5.0 |
0.41 (25W字/s) |
textSimple |
3027 |
4.32 |
6.5 |
0.66 (40W字/s) |
string |
2350 |
9.08 |
8.0 |
0.85 (57W字/s) |
速度:在与“solr博文https://www.365jz.com/article/24001”中1.2节相同配置的情况下,分词索引创建速度要差于不使用分词的。
大小:分词索引大小要小于不使用分词的,经测试分词字段配置成autoGeneratePhraseQueries="false"对索引大小几乎没有影响。
数据搜索效率:
文本内容以词库中任选20词拼成的句子,每词大约3字,一句大约60字,总数据量为2000W条数据。
字段类型 |
关键词 |
搜索时间(ms) |
结果(条) |
textMaxWord |
一不做二不休 |
180 |
2556 |
textComplex |
一不做二不休 |
59 |
2648 |
textSimple |
一不做二不休 |
62 |
2622 |
string |
*一不做二不休* |
20000 |
2689 |
textMaxWord |
一个国家两种制度 |
22 |
2620 |
textComplex |
一个国家两种制度 |
12 |
2687 |
textSimple |
一个国家两种制度 |
10 |
2670 |
string |
*一个国家两种制度* |
15500 |
2657 |
textMaxWord |
一些 |
24 |
15999 |
textComplex |
一些 |
11 |
2687 |
textSimple |
一些 |
9 |
2665 |
string |
*一些* |
14200 |
15758 |
textMaxWord |
转辗反侧 |
15 |
2622 |
textComplex |
转辗反侧 |
5 |
2632 |
textSimple |
转辗反侧 |
9 |
2676 |
string |
*转辗反侧* |
15600 |
2665 |
补充:
对于非中文、数字、英文词汇,包括繁体字,在词典中加入新词汇即可。
mmseg4j对于“都是先从容易的做起”,不能把“容易”分出来,分词结果为“都是|先|从容|易|的|做起”。
网上推荐使用textMaxWord类型分词。
创建索引效果:
FieldValue内容、在词库中补充均同1.2。
分词字段配置autoGeneratePhraseQueries="false"
类型 |
结果 |
细粒度 |
京華|时报|ぼおえ|2009|年|1|月|23|日报|日|报道|뭄내ㅠㅛ|ㅜ|치|ㅗ|受一股来|一股|一|股|来自|中西|西伯利亚|西伯|伯利|亚|的|强冷空气|冷空气|空气|影响|本市|出现|大风|降温|天气|白天|最高|高气|气温|只有|有|零下|零|下|7|摄氏度|摄氏|度|celsius|degree|同时|伴有|有|6|到|7|级|的|偏北风|偏北|北风 |
创建索引效率:
字段类型 |
创建时间(s) |
索引大小(GB) |
网络(MB/s) |
速率(W条/s) |
细粒度 |
3584 |
5.06 |
6.0 |
0.56 (33W字/s) |
速度:与1.2比较,分词索引创建速度要略差于使用mmseg4j分词的。
大小:分词索引大小要略大于使用mmseg4j分词的。
数据搜索效率:
字段类型 |
关键词 |
搜索时间(ms) |
结果(条) |
细粒度 |
一不做二不休 |
400 |
5949255 |
细粒度 |
一个国家两种制度 |
500 |
6558449 |
细粒度 |
一些 |
300 |
5312103 |
细粒度 |
转辗反侧 |
15 |
10588 |
补充:
mmseg4j中textMaxWord,“一不做二不休”被分为:一|不做|二不|不休;
IKAnalyzer中细粒度,“一不做二不休”被分为:一不做二不休|一|不做|二不休|二|不休;
因此同样使用autoGeneratePhraseQueries="false",“一不做二不休”搜索,IKAnalyzer搜索出来的结果要远多于mmseg4j。
创建索引效果:
FieldValue内容同1.2,没有补充词库。
<fieldType name="text_ansj"class="solr.TextField">
<analyzertype="index">
<tokenizerclass="org.ansj.solr.AnsjTokenizerFactory" conf="ansj.conf"rmPunc="true"/>
</analyzer>
<analyzertype="query">
<tokenizerclass="org.ansj.solr.AnsjTokenizerFactory" analysisType="1"rmPunc="true"/>
</analyzer>
</fieldType>
结果 |
京华|时报|ぼ|お|え|2009年|1月|23日|报道|,|뭄|내|ㅠ|ㅛ|ㅜ|치|ㅗ|受|一股|来自|中|西伯利亚|的|强|强冷空气|冷空气|影响|,|本市|出现|大风|降温|天气|,|白天|最高|气温|只|只有|有|零下|7摄氏度|摄氏|摄氏度|celsius||degree|,|同时|伴|伴有|有|6|到|7级|的|偏|偏北风|北风|。 |
“京華”二字被分词后变成了“京华”,据朋友介绍,它有将生僻字改字的Bug。
创建索引效率:
字段类型 |
创建时间(s) |
索引大小(GB) |
网络(MB/s) |
速率(W条/s) |
细粒度 |
3815 |
5.76 |
5.2 |
0.52 (31W字/s) |
速度:与1.2、1.3比较,分词索引创建速度要略差于使用mmseg4j、IKAnalyzer分词的。
大小:分词索引大小要略大于使用mmseg4j、IKAnalyzer分词的。
数据搜索效率:
关键词 |
搜索时间(ms) |
结果(条) |
一不做二不休 |
200 |
2478 |
一个国家两种制度 |
15 |
0 |
一些 |
25 |
15665 |
转辗反侧 |
6 |
2655 |
按分词后的结果进行搜索,若在分词字段配置autoGeneratePhraseQueries="false",则是搜索条件先分词,再使用分词在结果中搜索,默认的是true。autoGeneratePhraseQueries="false"对创建索引速度没影响,对搜索结果有影响。也可以修改Solr的QueryPasser,对于输入的一个字符串,先进行相应分词,再使用分词结果在索引集中搜索。
精确或模糊*搜索,都是以词为单位搜索。精确搜索是指返回所有包含分词的结果。
分词器能对word、letter、digit等进行识别。
对于不使用分词的String类型进行搜索,只能通过模糊搜索*,搜到连字,以字为单位搜索。
在分词索引内搜索,速度较快;不分词,需要遍历所有文档,速度较慢。
如果需要分词的话,那分词速度是主要瓶颈。
综合考虑,mmseg4j是首选的中文分词器。
Python自然语言处理实践: 在NLTK中使用斯坦福中文分词器
斯坦福大学自然语言处理组是世界知名的NLP研究小组,他们提供了一系列开源的Java文本分析工具,包括分词器(Word Segmenter),词性标注工具(Part-Of-Speech Tagger),命名实体识别工具(Named Entity Recognizer),句法分析器(Parser)等,可喜的事,他们还为这些工具训练了相应的中文模型,支持中文文本处理。在使用NLTK的过程中,发现当前版本的NLTK已经提供了相应的斯坦福文本处理工具接口,包括词性标注,命名实体识别和句法分析器的接口,不过可惜的是,没有提供分词器的接口。在google无果和阅读了相应的代码后,我决定照猫画虎为NLTK写一个斯坦福中文分词器接口,这样可以方便的在Python中调用斯坦福文本处理工具。
首先需要做一些准备工作,第一步当然是安装NLTK,这个可以参考我们在gensim的相关文章中的介绍《如何计算两个文档的相似度》,不过这里建议check github上最新的NLTK源代码并用“python setup.py install”的方式安装这个版本:https://github.com/nltk/nltk。这个版本新增了对于斯坦福句法分析器的接口,一些老的版本并没有,这个之后我们也许还会用来介绍。而我们也是在这个版本中添加的斯坦福分词器接口,其他版本也许会存在一些小问题。其次是安装Java运行环境,以Ubuntu 12.04为例,安装Java运行环境仅需要两步:
sudo apt-get install default-jre
sudo apt-get install default-jdk
最后,当然是最重要的,你需要下载斯坦福分词器的相应文件,包括源代码,模型文件,词典文件等。注意斯坦福分词器并不仅仅支持中文分词,还支持阿拉伯语的分词,需要下载的zip打包文件是这个: Download Stanford Word Segmenter version 2014-08-27,下载后解压。
准备工作就绪后,我们首先考虑的是在nltk源代码里的什么地方来添加这个接口文件。在nltk源代码包下,斯坦福词性标注器和命名实体识别工具的接口文件是这个:nltk/tag/stanford.py ,而句法分析器的接口文件是这个:nltk/parse/stanford.py , 虽然在nltk/tokenize/目录下有一个stanford.py文件,但是仅仅提供了一个针对英文的tokenizer工具PTBTokenizer的接口,没有针对斯坦福分词器的接口,于是我决定在nltk/tokenize下添加一个stanford_segmenter.py文件,作为nltk斯坦福中文分词器的接口文件。
如对本文有疑问,请提交到交流论坛,广大热心网友会为你解答!! 点击进入论坛