常見的集合容器應(yīng)當(dāng)避免的坑

GraphQuery 發(fā)布于2019-08-16 18:28 / 1789人閱讀

摘要：盡可能避免使用，會導(dǎo)致復(fù)制數(shù)組，降低效率。再額外提一點，我們常用的另一個容器也是推薦要初始化長度從而避免擴容。

前言

前不久幫同事一起 review 一個 job 執(zhí)行緩慢的問題時發(fā)現(xiàn)不少朋友在擼碼實現(xiàn)功能時還是有需要細節(jié)不夠注意，于是便有了這篇文章。

ArrayList 踩坑

List temp = new ArrayList() ;

//獲取一批數(shù)據(jù)
List all = getData();
for(String str : all) {
    temp.add(str);
}

首先大家看看這段代碼有什么問題嘛？

其實在大部分情況下這都是沒啥問題，無非就是循環(huán)的往 ArrayList 中寫入數(shù)據(jù)而已。

但在特殊情況下，比如這里的 getData() 返回數(shù)據(jù)非常巨大時后續(xù) temp.add(str) 就會有問題了。

比如我們在 review 代碼時發(fā)現(xiàn)這里返回的數(shù)據(jù)有時會高達 2000W，這時 ArrayList 寫入的問題就凸顯出來了。

填坑指南

大家都知道 ArrayList 是由數(shù)組實現(xiàn)，而數(shù)據(jù)的長度有限；需要在合適的時機對數(shù)組擴容。

這里以插入到尾部為例 add(E e)。

ArrayList temp = new ArrayList<>(2) ;
temp.add("1");
temp.add("2");
temp.add("3");

當(dāng)我們初始化一個長度為 2 的 ArrayList ，并往里邊寫入三條數(shù)據(jù)時 ArrayList 就得擴容了，也就是將之前的數(shù)據(jù)復(fù)制一份到新的數(shù)組長度為 3 的數(shù)組中。

之所以是 3 ，是因為新的長度=原有長度 * 1.5

通過源碼我們可以得知 ArrayList 的默認長度為 10.

但其實并不是在初始化的時候就創(chuàng)建了 DEFAULT_CAPACITY = 10 的數(shù)組。

而是在往里邊 add 第一個數(shù)據(jù)的時候會擴容到 10.

既然知道了默認的長度為 10 ，那說明后續(xù)一旦寫入到第九個元素的時候就會擴容為 10*1.5 =15。
這一步為數(shù)組復(fù)制，也就是要重新開辟一塊新的內(nèi)存空間存放這 15 個數(shù)組。

一旦我們頻繁且數(shù)量巨大的進行寫入時就會導(dǎo)致許多的數(shù)組復(fù)制，這個效率是極低的。

但如果我們提前預(yù)知了可能會寫入多少條數(shù)據(jù)時就可以提前避免這個問題。

比如我們往里邊寫入 1000W 條數(shù)據(jù)，在初始化的時候就給定數(shù)組長度與用默認 10 的長度之間性能是差距巨大的。

我用 JMH 基準(zhǔn)測試驗證如下：

@Warmup(iterations = 5, time = 1, timeUnit = TimeUnit.SECONDS)
@Measurement(iterations = 5, time = 1, timeUnit = TimeUnit.SECONDS)
public class CollectionsTest {

    private static final int TEN_MILLION = 10000000;

    @Benchmark
    @BenchmarkMode(Mode.AverageTime)
    @OutputTimeUnit(TimeUnit.MICROSECONDS)
    public void arrayList() {

        List array = new ArrayList<>();

        for (int i = 0; i < TEN_MILLION; i++) {
            array.add("123");
        }

    }

    @Benchmark
    @BenchmarkMode(Mode.AverageTime)
    @OutputTimeUnit(TimeUnit.MICROSECONDS)
    public void arrayListSize() {
        List array = new ArrayList<>(TEN_MILLION);

        for (int i = 0; i < TEN_MILLION; i++) {
            array.add("123");
        }

    }


    public static void main(String[] args) throws RunnerException {
        Options opt = new OptionsBuilder()
                .include(CollectionsTest.class.getSimpleName())
                .forks(1)
                .build();


        new Runner(opt).run();
    }
}

根據(jù)結(jié)果可以看出預(yù)設(shè)長度的效率會比用默認的效率高上很多（這里的 Score 指執(zhí)行完函數(shù)所消耗的時間）。

所以這里強烈建議大家：在有大量數(shù)據(jù)寫入 ArrayList 時，一定要初始化指定長度。

再一個是一定要慎用 add(int index, E element) 向指定位置寫入數(shù)據(jù)。

通過源碼我們可以看出，每一次寫入都會將 index 后的數(shù)據(jù)往后移動一遍，其實本質(zhì)也是要復(fù)制數(shù)組；

但區(qū)別于往常規(guī)的往數(shù)組尾部寫入數(shù)據(jù)，它每次都會進行數(shù)組復(fù)制，效率極低。

LinkedList

提到 ArrayList 就不得不聊下 LinkedList 這個孿生兄弟；雖說都是 List 的容器，但本質(zhì)實現(xiàn)卻完全不同。

LinkedList 是由鏈表組成，每個節(jié)點又有頭尾兩個節(jié)點分別引用了前后兩個節(jié)點；因此它也是一個雙向鏈表。

所以理論上來說它的寫入非常高效，將不會有 ArrayList 中效率極低的數(shù)組復(fù)制，每次只需要移動指針即可。

這里偷懶就不畫圖了，大家自行腦補下。

對比測試

坊間一直流傳：

LinkedList 的寫入效率高于 ArrayList，所以在寫大于讀的時候非常適用于 LinkedList 。

    @Benchmark
    @BenchmarkMode(Mode.AverageTime)
    @OutputTimeUnit(TimeUnit.MICROSECONDS)
    public void linkedList() {
        List array = new LinkedList<>();

        for (int i = 0; i < TEN_MILLION; i++) {
            array.add("123");
        }

    }

這里測試看下結(jié)論是否符合；同樣的也是對 LinkedList 寫入 1000W 次數(shù)據(jù)，通過結(jié)果來看初始化數(shù)組長度的 ArrayList 效率明顯是要高于 LinkedList 。

但這里的前提是要提前預(yù)設(shè) ArrayList 的數(shù)組長度，避免數(shù)組擴容，這樣 ArrayList 的寫入效率是非常高的，而 LinkedList 的雖然不需要復(fù)制內(nèi)存，但卻需要創(chuàng)建對象，變換指針等操作。

而查詢就不用多說了，ArrayList 可以支持下標(biāo)隨機訪問，效率非常高。

LinkedList 由于底層不是數(shù)組，不支持通過下標(biāo)訪問，而是需要根據(jù)查詢 index 所在的位置來判斷是從頭還是從尾進行遍歷。

但不管是哪種都得需要移動指針來一個個遍歷，特別是 index 靠近中間位置時將會非常慢。

總結(jié)

高性能應(yīng)用都是從小細節(jié)一點點堆砌起來的，就如這里提到的 ArrayList 的坑一樣，日常使用沒啥大問題，一旦數(shù)據(jù)量起來所有的小問題都會成為大問題。

所以再總結(jié)下：

再使用 ArrayList 時如果能提前預(yù)測到數(shù)據(jù)量大小，比較大時一定要指定其長度。

盡可能避免使用 add(index,e) api，會導(dǎo)致復(fù)制數(shù)組，降低效率。

再額外提一點，我們常用的另一個 Map 容器 HashMap 也是推薦要初始化長度從而避免擴容。

本文所有測試代碼：

https://github.com/crossoverJie/JCSprout/blob/master/src/main/java/com/crossoverjie/basic/CollectionsTest.java

你的點贊與分享是對我最大的支持

容器云語言的坑爹設(shè)計阿里云服務(wù)器的坑容器常見問題應(yīng)當(dāng)

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/75161.html

發(fā)表評論

登陸后可評論

0條評論

GraphQuery

男|高級講師

我要關(guān)注我要私信

TA的文章

如何在anaconda中安裝tensorflow

閱讀 2860·2023-04-25 18:58
#yyds干貨盤點#Apache的虛擬主機功能以及功能配置（一）

閱讀 989·2021-11-25 09:43
RackNerd雙十一促銷,洛杉磯VPS年付12美元起

閱讀 1224·2021-10-25 09:46
SecretFolder – 100%免費文件夾加密和隱藏實用桌面軟件

閱讀 3509·2021-09-09 11:40
UCloud快杰型云主機新人福利優(yōu)惠（可選香港/上海/北京等）

閱讀 1713·2021-08-05 09:59
神奇的BFC

閱讀 880·2019-08-29 15:07
用本地運行的demo快速入門跨域

閱讀 968·2019-08-29 12:48
《CSS揭秘》：菱形圖片

閱讀 710·2019-08-29 11:19

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

常見的集合容器應(yīng)當(dāng)避免的坑

相關(guān)文章

技術(shù)干貨 | Docker容器中需要避免的十種常見誤區(qū)

精讀《高性能 javascript》

**使用React 應(yīng)當(dāng)注意的幾個地方**

總結(jié)開發(fā)過程踩到的坑（三）

發(fā)表評論

0條評論

GraphQuery

男|高級講師

TA的文章

如何在anaconda中安裝tensorflow

#yyds干貨盤點#Apache的虛擬主機功能以及功能配置（一）

RackNerd雙十一促銷,洛杉磯VPS年付12美元起

SecretFolder – 100%免費文件夾加密和隱藏實用桌面軟件

UCloud快杰型云主機新人福利優(yōu)惠（可選香港/上海/北京等）

神奇的BFC

用本地運行的demo快速入門跨域

《CSS揭秘》：菱形圖片

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

常見的集合容器應(yīng)當(dāng)避免的坑

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！