。索引建立时, 使用的是Lucene的索引器Index Writer类。对Index Writer类所使用的语言分析器进行修改, 使其支持中文分词。
这里采用了简单的单汉字切分, 即将单个汉字作为一个术语, 利用Java CC编程实现。并且在生成索引器将支持中文单汉字切分的语言分析器作为参数传递给索引器成为索引器的成员, 使其在索引过程中使用该语言分析器进行分词。
*后, 调用Index Write类的add Document () , 将网络爬虫抓取且转换为Document格式的文件, 根据字段类型进行分别处理, 加入到索引字段。
声明:转载此文是出于传递更多学习交流目的。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本网联系,我们将及时更正、删除,谢谢。本站部分图文来源于网络,仅供学习交流,发表作品观点仅代表作者本人,本站仅提供信息存储空间服务,不承担连带责任。如有侵权,请及时联系管理员删除。
添加微信
微信扫一扫
评论