从2006年12月推出1.0版开始,IKAnalyzer已经推出 了3个大版本。最初,它是以开源项目
Lucene为应用主体的,结合词典分词和
文法分析算法的
中文分词组件。新版本的IKAnalyzer3.0则发展为 面向
Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。
采用了多子处理器分析模式,支持:
英文字母(IP地址、Email、URL)、数字(日期,常用中文
数量词,
罗马数字,
科学计数法),中文词汇(姓名、地名处理)等分词处理。
针对
Lucene全文检索优化的
查询分析器IKQueryParser;采用歧义分析算法优化查询
关键字的搜索排列组合,能极大的提高Lucene检索的命中率。
1.采用了特有的“正向
迭代最细粒度切分算法“,支持细粒度和智能分词两种切分模式;
2.在系统环境:Core2 i7 3.4G双核,4G内存,window 7 64位, Sun JDK 1.6_29 64位 普通pc环境测试,IK2012具有160万字/秒(3000KB/S)的高速处理能力。