Elasticsearch Lucene 數(shù)據(jù)寫入原理 | ES 核心篇

wums 發(fā)布于2019-08-19 10:31 / 2504人閱讀

摘要：因為倒排索引打分機制全文檢索原理分詞原理等等，這些都是不會過時的技術(shù)。中，單個倒排索引文件稱為。其中有一個文件，記錄了所有的信息，稱為文檔新寫入時，會生成新的。過程上個過程中在文件系統(tǒng)緩存中，會有意外故障文檔丟失。寫入次怕后，清空。

前言

最近 TL 分享了下《Elasticsearch基礎整理》，蹭著這個機會。寫個小文鞏固下，本文主要講 ES -> Lucene
的底層結(jié)構(gòu)，然后詳細描述新數(shù)據(jù)寫入 ES 和 Lucene 的流程和原理。這是基礎理論知識，整理了一下，希望能對 Elasticsearch 感興趣的同學有所幫助。

一、Elasticsearch & Lucene 是什么

什么是 Elasticsearch ？
Elasticsearch 是一個基于 Apache Lucene(TM) 的開源搜索引擎。

那 Lucene 是什么？
無論在開源還是專有領域，Lucene 可以被認為是迄今為止最先進、性能最好的、功能最全的搜索引擎庫，并通過簡單的 RESTful API 來隱藏 Lucene 的復雜性，從而讓全文搜索變得簡單。

Elasticsearch 不僅僅是 Lucene 和全文搜索，我們還能這樣去描述它：

分布式的實時文件存儲，每個字段都被索引并可被搜索

分布式的實時分析搜索引擎

可以擴展到上百臺服務器，處理 PB 級結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)

二、Elasticsearch & Lucene 的關(guān)系

就像很多業(yè)務系統(tǒng)是基于 Spring 實現(xiàn)一樣，Elasticsearch 和 Lucene 的關(guān)系很簡單：Elasticsearch 是基于 Lucene 實現(xiàn)的。ES 基于底層這些包，然后進行了擴展，提供了更多的更豐富的查詢語句，并且通過 RESTful API 可以更方便地與底層交互。類似 ES 還有 Solr 也是基于 Lucene 實現(xiàn)的。

在應用開發(fā)中，用 Elasticsearch 會很簡單。但是如果你直接用 Lucene，會有大量的集成工作。

因此，入門 ES 的同學，稍微了解下 Lucene 即可。如果往高級走，還是需要學習 Lucene 底層的原理。因為倒排索引、打分機制、全文檢索原理、分詞原理等等，這些都是不會過時的技術(shù)。

三、新文檔寫入流程 3.1 數(shù)據(jù)模型

如圖

一個 ES Index （索引，比如商品搜索索引、訂單搜索索引）集群下，有多個 Node （節(jié)點）組成。每個節(jié)點就是 ES 的實例。

每個節(jié)點上會有多個 shard （分片）， P1 P2 是主分片 R1 R2 是副本分片

每個分片上對應著就是一個 Lucene Index（底層索引文件）

Lucene Index 是一個統(tǒng)稱。由多個 Segment （段文件，就是倒排索引）組成。每個段文件存儲著就是 Doc 文檔。

3.2 Lucene Index

lucene 中，單個倒排索引文件稱為 segment。其中有一個文件，記錄了所有 segments 的信息，稱為 commit point：

文檔 create 新寫入時，會生成新的 segment。同樣會記錄到 commit point 里面

文檔查詢，會查詢所有的 segments

當一個段存在文檔被刪除，會維護該信息在 .liv 文件里面

3.3 新文檔寫入流程

新文檔創(chuàng)建或者更新時，進行如下流程：

更新不會修改原來的 segment，更新和創(chuàng)建操作都會生成新的一個 segment。數(shù)據(jù)哪里來呢？先會存在內(nèi)存的 bugger 中，然后持久化到 segment 。

數(shù)據(jù)持久化步驟如下：write -> refresh -> flush -> merge

3.3.1 write 過程

一個新文檔過來，會存儲在 in-memory buffer 內(nèi)存緩存區(qū)中，順便會記錄 Translog。

這時候數(shù)據(jù)還沒到 segment ，是搜不到這個新文檔的。數(shù)據(jù)只有被 refresh 后，才可以被搜索到。那么講下 refresh 過程

3.3.2 refresh 過程

refresh 默認 1 秒鐘，執(zhí)行一次上圖流程。ES 是支持修改這個值的，通過 index.refresh_interval 設置 refresh （沖刷）間隔時間。refresh 流程大致如下：

in-memory buffer 中的文檔寫入到新的 segment 中，但 segment 是存儲在文件系統(tǒng)的緩存中。此時文檔可以被搜索到

最后清空 in-memory buffer。注意: Translog 沒有被清空，為了將 segment 數(shù)據(jù)寫到磁盤

文檔經(jīng)過 refresh 后， segment 暫時寫到文件系統(tǒng)緩存，這樣避免了性能 IO 操作，又可以使文檔搜索到。refresh 默認 1 秒執(zhí)行一次，性能損耗太大。一般建議稍微延長這個 refresh 時間間隔，比如 5 s。因此，ES 其實就是準實時，達不到真正的實時。

3.3.3 flush 過程

上個過程中 segment 在文件系統(tǒng)緩存中，會有意外故障文檔丟失。那么，為了保證文檔不會丟失，需要將文檔寫入磁盤。那么文檔從文件緩存寫入磁盤的過程就是 flush。寫入次怕后，清空 translog。

translog 作用很大：

保證文件緩存中的文檔不丟失

系統(tǒng)重啟時，從 translog 中恢復

新的 segment 收錄到 commit point 中

具體可以看官方文檔：https://www.elastic.co/guide/...

3.3.4 merge 過程

上面幾個步驟，可見 segment 會越來越多，那么搜索會越來越慢？怎么處理呢？

通過 merge 過程解決：

就是各個小段文件，合并成一個大段文件。段合并過程

段合并結(jié)束，舊的小段文件會被刪除

.liv 文件維護的刪除文檔，會通過這個過程進行清除

四、小結(jié)

如這個圖，ES 寫入原理不難，記住關(guān)鍵點即可。

write -> refresh -> flush

write：文檔數(shù)據(jù)到內(nèi)存緩存，并存到 translog

refresh：內(nèi)存緩存中的文檔數(shù)據(jù)，到文件緩存中的 segment 。此時可以被搜到

flush 是緩存中的 segment 文檔數(shù)據(jù)寫入到磁盤

寫入的原理告訴我們，考慮的點很多：性能、數(shù)據(jù)不丟失等等

（完）

參考資料：

《深入理解 Elasticsearch》

https://lucene.apache.org/cor...

https://www.jianshu.com/p/e82...

ElasticSearch USDP大數(shù)據(jù)平臺原理篇 linux核心原理 lucene lucene 搜索

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/76181.html

發(fā)表評論

登陸后可評論

0條評論

wums

男|高級講師

我要關(guān)注我要私信

TA的文章

#萬圣節(jié)優(yōu)惠#DediPath：美國特價獨立服務器$39每月起，VPS全場5折優(yōu)惠

閱讀 2880·2021-10-26 09:48
云主機怎么設置-云主機怎么使用？

閱讀 1763·2021-09-22 15:22
主機ftp用戶名和密碼是什么意思-ftp主機地址是什么？

閱讀 4204·2021-09-22 15:05
【C語言進階】C語言實現(xiàn)通訊錄（簡易版）

閱讀 679·2021-09-06 15:02
設備物理像素、設備獨立像素

閱讀 2651·2019-08-30 15:52
Flexbox 很棒，但有些情況不適用

閱讀 2158·2019-08-29 18:38
css 填坑常用代碼分享

閱讀 2797·2019-08-28 18:05
1、TypeScript 介紹

閱讀 2369·2019-08-26 13:55

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Elasticsearch Lucene 數(shù)據(jù)寫入原理 | ES 核心篇

相關(guān)文章

Elasticsearch分布式一致性原理剖析(三)-Data篇

Elasticsearch分布式一致性原理剖析(三)-Data篇

發(fā)表評論

0條評論

wums

男|高級講師

TA的文章

#萬圣節(jié)優(yōu)惠#DediPath：美國特價獨立服務器$39每月起，VPS全場5折優(yōu)惠

云主機怎么設置-云主機怎么使用？

主機ftp用戶名和密碼是什么意思-ftp主機地址是什么？

【C語言進階】C語言實現(xiàn)通訊錄（簡易版）

設備物理像素、設備獨立像素

Flexbox 很棒，但有些情況不適用

css 填坑常用代碼分享

1、TypeScript 介紹

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Elasticsearch Lucene 數(shù)據(jù)寫入原理 | ES 核心篇

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！