Elasticsearch 1

Submitted by Lizhe on Thu, 12/03/2020 - 08:26

 Lucene 索引

document 数据载体,通常是被记录的 原文章

field 一个文档片段,包含名称和内容

term 搜索时的一个单位,文本中的一个词

token 是 term 在 document 中的一次出现,包含 文本,开始和结束的偏移量

 

举个例子

我是托尼老师,分词后是 

我,是,托尼,老师

我,是,拖地,老师

然后

我是托尼老师是 document,托尼是一个term,它的token是  托尼,1:3

 

以上结构实际上就是 倒排索引 inverted index

倒排索引源于实际应用中需要根据属性的值来查找记录,这种索引表中的每一项都包括一个属性值(term)和具有该属性值的各记录(document)的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(inverted index)。带有倒排索引的文件我们称为倒排索引文件,简称倒排文件(inverted file)。