你與解決“緩存污染”只差這篇文章的距離

shadowbook 發(fā)布于2019-08-06 13:41 / 1971人閱讀

摘要：如果處理不得當，就會造成緩存污染問題。解決緩存污染的算法算法，英文名，字面意思就是最不經(jīng)常使用的淘汰掉算法，是通過數(shù)據(jù)被訪問的頻率來判斷一個數(shù)據(jù)的熱點情況。分析降低了緩存污染帶來的問題，命中率比要高。

微信公眾號：IT一刻鐘
大型現(xiàn)實非嚴肅主義現(xiàn)場
一刻鐘與你分享優(yōu)質技術架構與見聞，做一個有劇情的程序員
關注可第一時間了解更多精彩內容，定期有福利相送喲。

什么是緩存污染？

由于緩存的讀取速度比非緩存要快上很多，所以在高性能場景下，系統(tǒng)在讀取數(shù)據(jù)時，是首先從緩存中查找需要的數(shù)據(jù)，如果找到了則直接讀取結果，如果找不到的話，則從內存或者硬盤中查找，再將查找到的結果存入緩存，以備下次使用。
實際上，對于一個系統(tǒng)來說，緩存的空間是有限且寶貴的，我們不可能將所有的數(shù)據(jù)都放入緩存中進行操作，即便可以數(shù)據(jù)安全性也得不到保證，而且，如果緩存的數(shù)據(jù)量過大大，其速度也會變得越來越慢。
這個時候就需要考慮緩存的淘汰機制，但是淘汰哪些數(shù)據(jù)，又保留哪些數(shù)據(jù)，這是一個問題。如果處理不得當，就會造成“緩存污染”問題。
而緩存污染，是指系統(tǒng)將不常用的數(shù)據(jù)從內存移到緩存，造成常用數(shù)據(jù)的擠出，降低了緩存效率的現(xiàn)象。

解決緩存污染的算法 LFU算法

LFU，英文名Least Frequently Used，字面意思就是最不經(jīng)常使用的淘汰掉算法，是通過數(shù)據(jù)被訪問的頻率來判斷一個數(shù)據(jù)的熱點情況。其核心理念是“歷史上這個數(shù)據(jù)被訪問次數(shù)越多，那么將來其被訪問的次數(shù)也多”。
LFU中每個數(shù)據(jù)塊都有一個引用計數(shù)器，所有數(shù)據(jù)塊按照引用數(shù)從大到小的排序。

步驟：

新數(shù)據(jù)插入到尾部，并將計數(shù)設置為1；

當隊列中的數(shù)據(jù)被訪問后，引用計數(shù)+1，然后重新排序，保持引用次數(shù)從大到小排序；

當空間不足，需要淘汰數(shù)據(jù)時，將尾部引用計數(shù)最小的數(shù)據(jù)塊刪除。

分析：由于是根據(jù)頻數(shù)進行熱點判斷和淘汰，所以先天具備避免偶發(fā)性、周期性批量操作導致臨時非熱點數(shù)據(jù)大量涌入緩存，擠出熱點數(shù)據(jù)的問題。
雖然具備這種先天優(yōu)勢，但依舊存在另一種緩存污染問題，即歷史熱點數(shù)據(jù)污染當前熱點數(shù)據(jù)，如果系統(tǒng)訪問模式發(fā)生了改變，新的熱點數(shù)據(jù)需要計數(shù)累加超過舊熱點數(shù)據(jù)，才能將舊熱點數(shù)據(jù)進行淘汰，造成熱點效應滯后的問題。
復雜度與代價：每次操作都需要進行計數(shù)和排序，并且需要維護每個數(shù)據(jù)塊計數(shù)情況，會占用較高的內存與cpu。

一個小思考，根據(jù)LFU算法，如何以O(1)時間復雜度實現(xiàn)get和put操作緩存？

LFU-Aging算法

LFU-Aging是基于LFU的改進算法，目的是解決歷史熱點數(shù)據(jù)對當前熱點數(shù)據(jù)的污染問題。有些數(shù)據(jù)在開始時使用次數(shù)很多，但以后就不再使用，這類數(shù)據(jù)將會長時間留在緩存中，所以“除了訪問次數(shù)外，還要考慮訪問時間”，這也是LFU-Aging的核心理念。
雖然算法將時間納入了考量范圍，但LFU-Aging并不是直接記錄數(shù)據(jù)的訪問時間，而是增加了一個最大平均引用計數(shù)的閾值，然后通過當前平均引用計數(shù)來標識時間，換句話說，就是將當前緩存中的平均引用計數(shù)值當作當前的生命年代，當這個生命年代超過了預設的閾值，就會將當前所有計數(shù)值減半，形成指數(shù)衰變的生命年代。

分析：優(yōu)點是當訪問模式發(fā)生改變的時候，生命年代的指數(shù)衰變會使LFU-Aging能夠更快的適用新的數(shù)據(jù)訪問模式，淘汰舊的熱點數(shù)據(jù)。
復雜度與代價：在LFU的基礎上又增加平均引用次數(shù)判斷和統(tǒng)計處理，對cpu的消耗更高，并且當平均引用次數(shù)超過指定閾值（Aging）后，還需要遍歷每一個數(shù)據(jù)塊的引用計數(shù)，進行指數(shù)衰變。

Window-LFU算法

Window-LFU顧名思義叫做窗口期LFU，區(qū)別于原義LFU中記錄所有數(shù)據(jù)的訪問歷史，Window-LFU只記錄過去一段時間內（窗口期）的訪問歷史，相當于給緩存設置了有效期限，過期數(shù)據(jù)不再緩存。當需要淘汰時，將這個窗口期內的數(shù)據(jù)按照LFU算法進行淘汰。
分析：由于是維護一段窗口期的記錄，數(shù)據(jù)量會比較少，所以內存占用和cpu消耗都比LFU要低。并且這段窗口期相當于給緩存設置了有效期，能夠更快的適應新的訪問模式的變化，緩存污染問題基本不嚴重。
復雜度與代價：維護一段時期內的數(shù)據(jù)訪問記錄，并對其排序。

LRU算法

LRU算法，英文名Least Recently Used，意思是最近最少使用的淘汰算法，根據(jù)數(shù)據(jù)的歷史訪問記錄來進行淘汰數(shù)據(jù)，核心思想是“如果數(shù)據(jù)最近被訪問過1次，那么將來被訪問的概率會更高”，類似于就近優(yōu)先原則。

步驟：

新數(shù)據(jù)插入到鏈表頭部；

每當命中緩存，便將命中的緩存數(shù)據(jù)移到鏈表頭部；

當鏈表滿的時候，將鏈表尾部的數(shù)據(jù)丟棄。

分析：偶發(fā)性的、周期性的批量操作會使臨時數(shù)據(jù)涌入緩存，擠出熱點數(shù)據(jù)，導致LRU熱點命中率急劇下降，緩存污染情況比較嚴重。
復雜度與代價：數(shù)據(jù)結構復雜度較低；每次需要遍歷鏈表，找到命中的數(shù)據(jù)塊，然后將數(shù)據(jù)移到頭部。

LRU-K算法

LRU-K是基于LRU算法的優(yōu)化版，其中K代表最近訪問的次數(shù)，從某種意義上，LRU可以看作是LRU-1算法，引入K的意義是為了解決上面所提到的緩存污染問題。其核心理念是從“數(shù)據(jù)最近被訪問過1次”蛻變成“數(shù)據(jù)最近被訪問過K次，那么將來被訪問的概率會更高”。
LRU-K與LRU區(qū)別是，LRU-K多了一個數(shù)據(jù)訪問歷史記錄隊列（需要注意的是，訪問歷史記錄隊列并不是緩存隊列，所以是不保存數(shù)據(jù)本身的，只是保存對數(shù)據(jù)的訪問記錄，數(shù)據(jù)此時依舊在原始存儲中），隊列中維護著數(shù)據(jù)被訪問的次數(shù)以及時間戳，只有當這個數(shù)據(jù)被訪問的次數(shù)大于等于K值時，才會從歷史記錄隊列中刪除，然后把數(shù)據(jù)加入到緩存隊列中去。

步驟：

數(shù)據(jù)第一次被訪問時，加入到歷史訪問記錄隊列中，訪問次數(shù)為1，初始化訪問時間戳；

如果數(shù)據(jù)訪問次數(shù)沒有達到K次，則訪問次數(shù)+1，更新時間戳。當隊列滿了時，按照某種規(guī)則（LRU或者FIFO）將歷史記錄淘汰。為了避免歷史數(shù)據(jù)污染未來數(shù)據(jù)的問題，還需要加上一個有效期限，對超過有效期的訪問記錄，進行重新計數(shù)。（可以使用懶處理，即每次對訪問記錄做處理時，先將記錄中的訪問時間與當前時間進行對比，如果時間間隔超過預設的值，則訪問次數(shù)重置為1并更新時間戳，表示重新開始計數(shù)）

當數(shù)據(jù)訪問計數(shù)大于等于K次后，將數(shù)據(jù)從歷史訪問隊列中刪除，更新數(shù)據(jù)時間戳，保存到緩存隊列頭部中（緩存隊列時間戳遞減排序，越到尾部距離當前時間越長）；

緩存隊列中數(shù)據(jù)被再次訪問后，將其移到頭部，并更新時間戳；

緩存隊列需要淘汰數(shù)據(jù)時，淘汰緩存隊列中排在末尾的數(shù)據(jù)，即：淘汰“倒數(shù)第K次訪問離現(xiàn)在最久”的數(shù)據(jù)。

分析：LRU-K降低了“緩存污染”帶來的問題，命中率比LRU要高。實際應用中LRU-2是綜合各種因素后最優(yōu)的選擇，LRU-3或者更大的K值命中率會高，但適應性差，一旦訪問模式發(fā)生變化，需要大量的新數(shù)據(jù)訪問才能將歷史熱點訪問記錄清除掉。
復雜度與代價：LRU-K隊列是一個優(yōu)先級隊列。由于LRU-K需要記錄那些被訪問過，但還沒有放入緩存的對象，導致內存消耗會很多。

URL-Two queues算法

URL-Two queues算法類似于LRU-2，不同點在于URL-Two queues將LRU-2算法中的訪問歷史隊列（注意這不是緩存數(shù)據(jù)的）改為一個FIFO緩存隊列，即：URL-Two queues算法有兩個緩存隊列，一個是FIFO隊列（First in First out，先進先出），一個是LRU隊列。
當數(shù)據(jù)第一次訪問時，URL-Two queues算法將數(shù)據(jù)緩存在FIFO隊列里面，當數(shù)據(jù)第二次被訪問時，則將數(shù)據(jù)從FIFO隊列移到LRU隊列里面，兩個隊列各自按照自己的方法淘汰數(shù)據(jù)。

步驟：

新訪問的數(shù)據(jù)先插入到FIFO隊列中；

如果數(shù)據(jù)在FIFO隊列中一直沒有被再次訪問，則最終按照FIFO規(guī)則淘汰；

如果數(shù)據(jù)在FIFO隊列中被再次訪問，則將數(shù)據(jù)從FIFO刪除，加入到LRU隊列頭部；

如果數(shù)據(jù)在LRU隊列再次被訪問，則將數(shù)據(jù)移到LRU隊列頭部；

LRU隊列淘汰末尾的數(shù)據(jù)。

分析：URL-Two queues算法和LRU-2算法命中率類似，但是URL-Two queues會減少一次從原始存儲讀取或計算數(shù)據(jù)的操作。命中率要高于LRU。
復雜度與代價：需要維護兩個隊列，代價是FIFO和LRU代價之和。

五三LRU算法

emmmm...
這個名字其實是我取的，大概是這種算法還沒有被命名？當然，這是一個玩笑話。
我是在mysql底層實現(xiàn)里發(fā)現(xiàn)這個算法的，mysql在處理緩存淘汰時是用的這個方法，有點像URL-Two queues的變體，只是我們只需要維護一個隊列，然后將隊列按照5:3的比例進行分割，5的那部分叫做young區(qū)，3的那部分叫做old區(qū)。具體是怎么樣的請先看我把圖畫出來：

步驟：

第一次訪問的數(shù)據(jù)從隊列的3/8處位置插入；

如果數(shù)據(jù)再次被訪問，則移動到隊列頭部；

如果數(shù)據(jù)沒有被再訪問，會逐步被熱點數(shù)據(jù)驅逐向下移；

淘汰尾部數(shù)據(jù)。

分析：五三LRU算法算作是URL-Two queues算法的變種，原理其實是一樣的，只是把兩個隊列合二為一個隊列進行數(shù)據(jù)的處理，所以命中率和URL-Two queues算法一樣。
復雜度與代價：維護一個隊列，代價較低，但是內存占用率和URL-Two queues一樣。

Multi Queue算法

Multi Queue算法根據(jù)訪問頻率將數(shù)據(jù)劃分為多個隊列，不同的隊列具有不同的訪問優(yōu)先級，其核心思想是“優(yōu)先緩存訪問次數(shù)多的數(shù)據(jù)”。
Multi Queue算法將緩存劃分為多個LRU隊列，每個隊列對應不同的訪問優(yōu)先級。訪問優(yōu)先級是根據(jù)訪問次數(shù)計算出來的，例如：
Q0，Q1....Qn代表不同的優(yōu)先級隊列，Q-history代表從緩存中淘汰數(shù)據(jù)，但記錄了數(shù)據(jù)的索引和引用次數(shù)。

步驟：

新插入的數(shù)據(jù)放入Q0；

每個隊列按照LRU管理數(shù)據(jù)，再次訪問的數(shù)據(jù)移動到頭部；

當數(shù)據(jù)的訪問次數(shù)達到一定次數(shù)，需要提升優(yōu)先級時，將數(shù)據(jù)從當前隊列刪除，加入到高一級隊列的頭部；

為了防止高優(yōu)先級數(shù)據(jù)永遠不被淘汰，當數(shù)據(jù)在指定的時間里訪問沒有被訪問時，需要降低優(yōu)先級，將數(shù)據(jù)從當前隊列刪除，加入到低一級的隊列頭部；

需要淘汰數(shù)據(jù)時，從最低一級隊列開始按照LRU淘汰；每個隊列淘汰數(shù)據(jù)時，將數(shù)據(jù)從緩存中刪除，將數(shù)據(jù)索引加入Q-history頭部；

如果數(shù)據(jù)在Q-history中被重新訪問，則重新計算其優(yōu)先級，移到目標隊列的頭部；

Q-history按照LRU淘汰數(shù)據(jù)的索引。

分析：Multi Queue降低了“緩存污染”帶來的問題，命中率比LRU要高。
復雜度與代價：Multi Queue需要維護多個隊列，且需要維護每個數(shù)據(jù)的訪問時間，復雜度比LRU高。Multi Queue需要記錄每個數(shù)據(jù)的訪問時間，需要定時掃描所有隊列，代價比LRU要高。雖然Multi Queue的隊列看起來數(shù)量比較多，但由于所有隊列之和受限于緩存容量的大小，因此這里多個隊列長度之和和一個LRU隊列是一樣的，因此隊列掃描性能也相近。

說在后面話

還有哪些優(yōu)秀的緩存淘汰算法，或者你有更好的想法或問題，歡迎留言給我！

GPU云服務器云服務器你與只差點與點的距離 java 日期只差

文章版權歸作者所有，未經(jīng)允許請勿轉載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉載請注明本文地址：http://systransis.cn/yun/62090.html

【算法】算法圖解筆記_廣度優(yōu)先搜索

摘要：解決最短路徑問題的算法被稱為廣度優(yōu)先搜索。廣度優(yōu)先搜索算法最早由年在如何從迷宮中尋找出路這一問題中提出。廣度優(yōu)先搜索讓你能夠找出兩樣東西之間的最短距離。使用廣度優(yōu)先搜索解決問題。你經(jīng)常需要解決最短路徑問題(shorterst-path problem)。解決最短路徑問題的算法被稱為廣度優(yōu)先搜索。廣度優(yōu)先搜索算法最早由Edward F. Moore 1959年在如何從迷宮中尋找出路這一...

sanyang 2019-07-31 10:18 評論0 收藏0
【只差一個CSS】布局：簡介

摘要：同樣美化頁面，我們需要先對頁面元素進行整理，這種整理就叫布局。如何布局首先頁面有一種默認布局，也就是什么也不寫，然后頁面對元素的排布情況。用哪一種工具來布局同學們要問啦，這么多工具，我到底用哪一種呢這里強烈推薦。為什么要強調布局？ ? 我們?yōu)轫撁鎸慶ss，就是想美化這個頁面，讓它變得好看，而變得好看其實可以分兩步來完成，第一步是整理，第二步是修飾。就像一間房間，房間里有很多有用...

makeFoxPlay 2019-08-21 12:03 評論0 收藏0
【只差一個CSS】布局：簡介

摘要：同樣美化頁面，我們需要先對頁面元素進行整理，這種整理就叫布局。如何布局首先頁面有一種默認布局，也就是什么也不寫，然后頁面對元素的排布情況。用哪一種工具來布局同學們要問啦，這么多工具，我到底用哪一種呢這里強烈推薦。為什么要強調布局？ ? 我們?yōu)轫撁鎸慶ss，就是想美化這個頁面，讓它變得好看，而變得好看其實可以分兩步來完成，第一步是整理，第二步是修飾。就像一間房間，房間里有很多有用...

elina 2019-08-29 13:12 評論0 收藏0

發(fā)表評論

登陸后可評論

0條評論

shadowbook

男|高級講師

我要關注我要私信

TA的文章

Spring Cloud構建分布式微服務架構 - 企業(yè)分布式微服務云架構構建

閱讀 2998·2021-11-23 09:51
RAKsmart：“11.11大促”，E3-1230僅30美金，云服務器全場7折，SSL證書免費送！

閱讀 3013·2021-11-02 14:46
Virtono，萬圣節(jié)全場VPS 5折優(yōu)惠，VPS低至4.47歐/月，可選11個機房(全部是歐美機房

閱讀 878·2021-11-02 14:45
css.gg – 一款免費開源CSS庫實現(xiàn)700+圖標應用前端項目

閱讀 2758·2021-09-23 11:57
網(wǎng)絡表演（直播、短視頻）經(jīng)紀機構委員會正式成立

閱讀 2511·2021-09-23 11:22
現(xiàn)代JS中的流程控制：詳解Callbacks 、Promises 、Async/Await

閱讀 1938·2019-08-29 16:29
VueX狀態(tài)管理器的應用

閱讀 758·2019-08-29 16:16
用js簡單提供增刪改查接口

閱讀 952·2019-08-26 13:44

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

你與解決“緩存污染”只差這篇文章的距離

相關文章

【算法】算法圖解筆記_廣度優(yōu)先搜索

【只差一個CSS】布局：簡介

【只差一個CSS】布局：簡介

發(fā)表評論

0條評論

shadowbook

男|高級講師

TA的文章

Spring Cloud構建分布式微服務架構 - 企業(yè)分布式微服務云架構構建

RAKsmart：“11.11大促”，E3-1230僅30美金，云服務器全場7折，SSL證書免費送！

Virtono，萬圣節(jié)全場VPS 5折優(yōu)惠，VPS低至4.47歐/月，可選11個機房(全部是歐美機房

css.gg – 一款免費開源CSS庫實現(xiàn)700+圖標應用前端項目

網(wǎng)絡表演（直播、短視頻）經(jīng)紀機構委員會正式成立

現(xiàn)代JS中的流程控制：詳解Callbacks 、Promises 、Async/Await

VueX狀態(tài)管理器的應用

用js簡單提供增刪改查接口

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

你與解決“緩存污染”只差這篇文章的距離

相關文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！