首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    出版人致词:强国之本

    “Desenrascar”。我的东道主凑近重复了一遍这个葡萄牙语词。“给我们再大的难题,我们都能解决,尽管我们的动作不一定优美。”他略为得意地解释道。我们坐在里斯本以北半小时的卡石卡伊石镇的一家海滨餐馆。当地的特色菜是海盐裹着烤的全鱼。喜爱金庸大师的读者可能记得,《射雕英雄传》第十二回中,黄蓉在江边偷了鸡,“用峨嵋钢刺剖了公鸡肚子,将内脏洗剥干净,却不拔毛,用水和了一团泥裹住鸡外,生火烤了起来。烤得一会,泥中透出甜香,待得湿泥干透,剥去干泥,鸡毛随泥而落,鸡肉白嫩,浓香扑鼻。”此道菜当然就是引洪七公出场的江南美食叫化鸡。以美鱼代肥鸡,海盐代江泥,读者即可以想象我们今晚的鱼的做法。

    05

    同义词搜索是如何做到的?

    前面几个章节我们使用到了 Lucene 的中文分词器 HanLPAnalyzer,它并不是 Lucene 自带的中文分词器。Lucene 确实自带了一些中文分词器,但是效果比较弱,在生产实践中多用第三方中文分词器。分词的效果直接影响到搜索的效果,比如默认的 HanLPAnalyser 对「北京大学」这个短语的处理是当成完整的一个词,搜索「北京」这个词汇就不一定能匹配到包含「北京大学」的文章。对语句的处理还需要过滤掉停用词,除掉诸于「的」、「他」、「是」等这样的辅助型词汇。如果是英文还需要注意消除时态对单词形式的影响,比如「drive」和「driven」、「take」和「taked」等。还有更加高级的领域例如同义词、近音词等处理同样也是分词器需要考虑的范畴。

    02
    领券