Solr分析器、标记器和过滤器

2018-11-13 16:22 更新
以下各部分描述了 Solr 如何分解和处理文本数据。有三个主要的概念要理解:分析器、标记器和过滤器。
  • 字段分析器在接收期间、文档被索引时以及在查询时使用。分析器检查字段的文本并生成标记流。分析器可能是一个单独的类,或者它们可能由一系列的标记器和过滤器类组成。
  • 标记器将字段数据分解为词法单位或标记。
  • 过滤器检查标记流并保留它们、转换或丢弃它们,或者创建新的标记。标记器和过滤器可以组合起来形成管道或链,其中一个的输出被输入到下一个。这样的标记器和过滤器序列称为分析器,分析器的输出结果用于匹配查询结果或生成索引。

使用分析器,标记器和过滤器

虽然分析过程同时用于索引和查询,但不需要对两个操作使用相同的分析过程。对于索引,你通常想简化或规范化单词。例如,将所有字母设置为小写,消除标点符号和重音符号,将单词映射到其词干等等。这样做会增加回忆,因为例如:“ram”、“Ram” 和 “RAM” 都将匹配 “ram” 的查询。为了提高查询时间精度,可以使用过滤器来缩小匹配范围,例如,如果您对雄性绵羊感兴趣,而不是随机存取内存,则忽略全部缩写词。

分析过程输出的令牌定义了该字段的值或术语,并用于在添加新文档时建立这些术语的索引,或者用于标识哪些文档包含您要查询的术语。

了解更多信息

这些部分将向您展示如何配置字段分析器,并且还将作为配置每个可用标记器和过滤器类的详细信息的参考。它还可以作为指导,以便您可以配置您自己的分析类,如果您有特殊的需求,而这些需求无法用所包含的过滤器或标记器来满足。

对于分析仪,请参阅:

  • 分析器:有关 Solr 分析器的详细概念信息。
  • 运行您的分析器:关于测试和运行您的 Solr 分析器的详细信息。

对于 Tokenizers,请参阅:

  • 关于 Tokenizers:关于 Solr 标记器的详细概念信息。
  • 标志符:关于配置标志转换器的信息,以及关于此分发的 Solr 中包含的标志器工厂类的信息。

对于过滤器,请参阅:

  • 关于过滤器:有关 Solr 过滤器的详细概念信息。
  • 过滤器描述:有关配置过滤器的信息,以及有关 Solr 发行版中包含的过滤器工厂类的信息。
  • CharFilterFactories:有关用于预处理输入字符的过滤器的信息。

要了解如何使用各种语言的 Tokenizers 和 Filters,请参阅:

  • 语言分析:关于用于字符集转换或用于特定语言的标记器和过滤器的信息。
以上内容是否对您有帮助:
在线笔记
App下载
App下载

扫描二维码

下载编程狮App

公众号
微信公众号

编程狮公众号