從JVM并發(fā)看CPU內(nèi)存指令重排序

vboy1010 發(fā)布于2019-08-16 10:25 / 1535人閱讀

摘要：處理器通過緩存能夠從數(shù)量級上降低內(nèi)存延遲的成本這些緩存為了性能重新排列待定內(nèi)存操作的順序。從上述觸發(fā)步驟中，可以看到第步發(fā)生了指令重排序，并導(dǎo)致第步讀到錯誤的數(shù)據(jù)。內(nèi)存屏障是用來防止出現(xiàn)指令重排序的利器之一。

這兩天，我拜讀了 Dennis Byrne 寫的一片博文Memory Barriers and JVM Concurrency (中譯文內(nèi)存屏障與JVM并發(fā))。

文中提到:

對主存的一次訪問一般花費硬件的數(shù)百次時鐘周期。處理器通過緩存（caching）能夠從數(shù)量級上降低內(nèi)存延遲的成本這些緩存為了性能重新排列待定內(nèi)存操作的順序。也就是說，程序的讀寫操作不一定會按照它要求處理器的順序執(zhí)行。

這段話是作者對內(nèi)存屏障重要性的定義。通過cache降低內(nèi)存延遲，這句話很好理解。但后面那句“為了性能重排序內(nèi)存操作順序”，讓沒學(xué)好微機(jī)原理的我倍感疑惑。

CPU為何要重排序內(nèi)存訪問指令？在哪種場景下會觸發(fā)重排序？作者在文中并未提及。

為了解答疑問，我在網(wǎng)上查閱了一些資料，在這里跟大家分享一下。

重排序的背景

我們知道現(xiàn)代CPU的主頻越來越高，與cache的交互次數(shù)也越來越多。當(dāng)CPU的計算速度遠(yuǎn)遠(yuǎn)超過訪問cache時，會產(chǎn)生cache wait，過多的cache wait就會造成性能瓶頸。
針對這種情況，多數(shù)架構(gòu)（包括X86）采用了一種將cache分片的解決方案，即將一塊cache劃分成互不關(guān)聯(lián)地多個 slots (邏輯存儲單元，又名 Memory Bank 或 Cache Bank)，CPU可以自行選擇在多個 idle bank 中進(jìn)行存取。這種 SMP 的設(shè)計，顯著提高了CPU的并行處理能力，也回避了cache訪問瓶頸。

Memory Bank的劃分
一般 Memory bank 是按cache address來劃分的。比如偶數(shù)adress 0×12345000分到 bank 0, 奇數(shù)address 0×12345100分到 bank1。

重排序的種類
編譯期重排。編譯源代碼時，編譯器依據(jù)對上下文的分析，對指令進(jìn)行重排序，以之更適合于CPU的并行執(zhí)行。

運行期重排，CPU在執(zhí)行過程中，動態(tài)分析依賴部件的效能，對指令做重排序優(yōu)化。

實例講解指令重排序原理

為了方便理解，我們先來看一張CPU內(nèi)部結(jié)構(gòu)圖。

從圖中可以看到，這是一臺配備雙CPU的計算機(jī)，cache 按地址被分成了兩塊 cache banks，分別是cache bank0 和 cache bank1。

理想的內(nèi)存訪問指令順序：
1，CPU0往cache address 0×12345000 寫入一個數(shù)字 1。因為address 0×12345000是偶數(shù)，所以值被寫入 bank0.
2，CPU1讀取 bank0 address 0×12345000 的值，即數(shù)字1。
3，CPU0往 cache 地址 0×12345100 寫入一個數(shù)字 2。因為address 0×12345100是奇數(shù)，所以值被寫入 bank1.
4，CPU1讀取 bank1 address 0×12345100 的值，即數(shù)字2。

重排序后的內(nèi)存訪問指令順序：
1，CPU0 準(zhǔn)備往 bank0 address 0×12345000 寫入數(shù)字 1。
2，CPU0檢查 bank0 的可用性。發(fā)現(xiàn) bank0 處于 busy 狀態(tài)。
3， CPU0 為了防止 cache等待，發(fā)揮最大效能，將內(nèi)存訪問指令重排序。即先執(zhí)行后面的 bank1 address 0×12345100 數(shù)字2的寫入請求。
4，CPU0檢查 bank1 可用性，發(fā)現(xiàn)bank1處于 idle 狀態(tài)。
5，CPU0 將數(shù)字2寫入 bank 1 address 0×12345100。
6，CPU1來讀取 0×12345000，未讀到數(shù)字1，出錯。
7， CPU0 繼續(xù)檢查 bank0 的可用性，發(fā)現(xiàn)這次bank0 可用了，然后將數(shù)字1寫入 0×12345000。
8， CPU1 讀取 0×12345100，讀到數(shù)字2，正確。

從上述觸發(fā)步驟中，可以看到第 3 步發(fā)生了指令重排序，并導(dǎo)致第 6步讀到錯誤的數(shù)據(jù)。

通過對指令重排，CPU可以獲得更快地響應(yīng)速度，但也給編寫并發(fā)程序的程序員帶來了諸多挑戰(zhàn)。
內(nèi)存屏障是用來防止CPU出現(xiàn)指令重排序的利器之一。
通過這個實例，不知道你對指令重排理解了沒有？

不同架構(gòu)下的指令重排優(yōu)化

X86僅在 Stores after loads 和 Incoherent instruction cache pipeline 中會觸發(fā)重排。

Stores after loads的含義是在對同一個地址進(jìn)行讀寫操作時，寫入在讀取后面，允許重排序。即滿足弱一致性(Weak Consistency)，這是最可被接受的類型，不會造成太大的影響。

Incoherent instruction cache pipeline是跟JIT相關(guān)的類型，作用是在執(zhí)行self-modifying code 時預(yù)防JIT沒有flush指令緩存。我不知道該類型跟指令排序有什么關(guān)系，既然不在本文涉及范圍內(nèi)，就不做深入探討了。

參考資料

http://kenwublog.com/docs/memory.barrier.ppt

http://kenwublog.com/docs/memory.model.instruction.reordering.and.store.atomicity.pdf

http://kenwublog.com/docs/memory.ordering.in.modern.microprocessor.pdf

http://en.wikipedia.org/wiki/Memory_ordering

http://en.wikipedia.org/wiki/Memory_Bank

via ifeve

云服務(wù)器 GPU云服務(wù)器 java重排序指令重排序數(shù)組重排序 webrtc 亂序重排

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/69760.html

發(fā)表評論

登陸后可評論

0條評論

vboy1010

男|高級講師

我要關(guān)注我要私信

TA的文章

菜鳥筆記(5)——VS（Visual Studio）的一些常用的設(shè)置，( 使用printf和scan

閱讀 2480·2021-09-27 13:36
前端面試必問題答疑（2）

閱讀 2171·2019-08-29 18:47
CSS預(yù)編譯語言Less的用法總結(jié)

閱讀 2140·2019-08-29 15:21
CSS 字體(例如font-awesome)，使用子域名之后不能正確顯示

閱讀 1404·2019-08-29 11:14
雪碧圖sprity 合并多圖使用心得

閱讀 1989·2019-08-28 18:29
向CSS創(chuàng)始人之一Bert Bos提問！

閱讀 1634·2019-08-28 18:04
IE 8 瀏覽器 placeholder 兼容性處理

閱讀 581·2019-08-26 13:58
JavaScript sort() 對json進(jìn)行排序(數(shù)組)

閱讀 3217·2019-08-26 12:12

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

從JVM并發(fā)看CPU內(nèi)存指令重排序

相關(guān)文章

**Java 并發(fā)編程（學(xué)習(xí)）**

(七)Volatile的作用及原理

**Java 并發(fā)編程**

從Java多線程可見性談Happens-Before原則

并發(fā)編程的藝術(shù)

發(fā)表評論

0條評論

vboy1010

男|高級講師

TA的文章

菜鳥筆記(5)——VS（Visual Studio）的一些常用的設(shè)置，( 使用printf和scan

前端面試必問題答疑（2）

CSS預(yù)編譯語言Less的用法總結(jié)

CSS 字體(例如font-awesome)，使用子域名之后不能正確顯示

雪碧圖sprity 合并多圖使用心得

向CSS創(chuàng)始人之一Bert Bos提問！

IE 8 瀏覽器 placeholder 兼容性處理

JavaScript sort() 對json進(jìn)行排序(數(shù)組)

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

從JVM并發(fā)看CPU內(nèi)存指令重排序

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！