Elasticsearch黑鸟教程17：ES的分词介绍

时间: 2020-12-11

阅读：1983 次

分类: Redis 教程

1、文本分析与分词

文本分析（Analysis）是把全文本转换一系列单词(term/token)的过程，也称为分词。

当一个文档被索引时，每个Term都可能会创建一个倒排索引。倒排索引的过程就是将文档通过分词器（Analyzer）分成一个一个的Term，每一个Term都指向包含这个Term的文档集合。

2、分析器组成

分析器（Analyzer）都由三部分组成的：character filters， tokenizers， token filters。

2.1、字符过滤器（character filter ）

在一段文本进行分词之前，先进行预处理，比如说最常见的就是过滤html标签。

2.2、分词器（tokenizers）

英文分词可以根据空格将单词分开，而中文分词比较复杂，可以采用机器学习算法来分词。

2.3、Token过滤器（token filters）

将切分的单词进行加工，例如：大小写转换，去掉词等。

三者顺序：Character Filters--->Tokenizer--->Token Filter
三者个数：analyzer = CharFilters（0个或多个） + Tokenizer(恰好一个) + TokenFilters(0个或多个)

3、Elasticsearch的内置分词器

Standard Analyzer - 默认分词器，按词切分，小写处理

Simple Analyzer - 按照非字母切分(符号被过滤), 小写处理

Stop Analyzer - 小写处理，停用词过滤(the,a,is)

Whitespace Analyzer - 按照空格切分，不转小写

Keyword Analyzer - 不分词，直接将输入当作输出

Patter Analyzer - 正则表达式，默认W+(非字符分割)

Language - 提供了30多种常见语言的分词器

Customer Analyzer 自定义分词器

4、Elasticsearch的内置分词器用法

4.1、生成索引：

curl -X PUT -H 'Content-Type: application/json' 'localhost:9200/my_index'

4.2、分词API：

curl 'localhost:9200/my_index/_analyze?pretty'  -H 'Content-Type: application/json' -d '{
  "analyzer": "standard",
  "text": "Hello World!"
}'

4.3、分词结果：

{
  "tokens" : [
    {
      "token" : "hello",
      "start_offset" : 0,
      "end_offset" : 5,
      "type" : "<ALPHANUM>",
      "position" : 0
    },
    {
      "token" : "world",
      "start_offset" : 6,
      "end_offset" : 11,
      "type" : "<ALPHANUM>",
      "position" : 1
    }
  ]
}

标签: none

Elasticsearch黑鸟教程17：ES的分词介绍

1、文本分析与分词

2、分析器组成

2.1、字符过滤器（character filter ）

2.2、分词器（tokenizers）

2.3、Token过滤器（token filters）

3、Elasticsearch的内置分词器

4、Elasticsearch的内置分词器用法

4.1、生成索引：

4.2、分词API：

4.3、分词结果：

添加新评论

最近回复

分类

最新文章

热门文章

归档

友情链接