成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

numpy:python數(shù)據(jù)領(lǐng)域的功臣

DevYK / 852人閱讀

摘要:前言對的意義非凡,在數(shù)據(jù)分析與機器學(xué)習(xí)領(lǐng)域為立下了汗馬功勞?,F(xiàn)在用搞數(shù)據(jù)分析或機器學(xué)習(xí)經(jīng)常使用的等庫,都需要基于構(gòu)建。毫不夸張地說,沒有,今天在數(shù)據(jù)分析與機器學(xué)習(xí)領(lǐng)域只能是捉襟見肘。

前言

numpy對python的意義非凡,在數(shù)據(jù)分析與機器學(xué)習(xí)領(lǐng)域為python立下了汗馬功勞。現(xiàn)在用python搞數(shù)據(jù)分析或機器學(xué)習(xí)經(jīng)常使用的pandas、matplotlib、sklearn等庫,都需要基于numpy構(gòu)建。毫不夸張地說,沒有numpy,python今天在數(shù)據(jù)分析與機器學(xué)習(xí)領(lǐng)域只能是捉襟見肘。

什么是一門好的數(shù)據(jù)分析語言

數(shù)據(jù)分析面向的數(shù)據(jù)大多數(shù)是二維表。一門好的數(shù)據(jù)分析語言,首先需要能夠直接有個數(shù)據(jù)結(jié)構(gòu)存下這個二維表,然后要配上一套成熟的類SQL的數(shù)據(jù)操作接口,最后要有一套好用的可視化工具。R語言就是一個極好的典范:用內(nèi)置的data.frame結(jié)構(gòu)做數(shù)據(jù)的存儲;data.frame本身提供足夠強大的數(shù)據(jù)操作能力,另有dplyr、tidyr、data.table、plyr、reshape2等庫提供更好用更高效的數(shù)據(jù)操作能力;在繪圖上,除了基本的plot功能外,還提供了ggplot2這樣一套優(yōu)雅的繪圖語言,還通過htmlwidget庫與javascript各種繪圖庫建立了緊密的聯(lián)系,讓可視化的動態(tài)展示效果更進一步。Excel也是一個極好的例子,有單元格這種靈活的結(jié)構(gòu)為數(shù)據(jù)存儲做支撐,有大量的函數(shù)實現(xiàn)靈活的操作,也有強大的繪圖系統(tǒng)。

python目前在數(shù)據(jù)分析領(lǐng)域也已經(jīng)具備了相當(dāng)可觀的能力,包括pandas庫實現(xiàn)的DataFrame結(jié)構(gòu),pandas本身提供的數(shù)據(jù)操作能力,matplotlib提供的數(shù)據(jù)可視化能力,而這一切都離不開numpy庫。

什么是一門好的機器學(xué)習(xí)語言

一般來講,一門好的機器學(xué)習(xí)語言在數(shù)據(jù)分析上也一定很吃得開,因為數(shù)據(jù)分析往往是機器學(xué)習(xí)的基礎(chǔ)。但是機器學(xué)習(xí)的要求更高,因為在模型訓(xùn)練階段往往需要較為復(fù)雜的參數(shù)估計運算,因此語言需要具備較強的科學(xué)計算能力??茖W(xué)計算能力,最核心的就是矩陣運算能力。關(guān)于矩陣運算能力,這篇文章對各種語言有很好的比較。

如果沒有numpy,python內(nèi)部只能用list或array來表示矩陣。假如用list來表示[1,2,3],由于list的元素可以是任何對象,因此list中所保存的是對象的指針,所以需要有3個指針和三個整數(shù)對象,比較浪費內(nèi)存和CPU計算時間。python的array和list不同,它直接保存數(shù)值,和C語言的一維數(shù)組比較類似,但是不支持多維,表達形式很簡陋,寫科學(xué)計算的算法很難受。numpy彌補了這些不足,其提供的ndarray是存儲單一數(shù)據(jù)類型的多維數(shù)組,且采用預(yù)編譯好的C語言代碼,性能上的表現(xiàn)也十分不錯。

python最流行的機器學(xué)習(xí)庫sklearn構(gòu)建在numpy之上,提供了各種標準機器學(xué)習(xí)模型的訓(xùn)練與預(yù)測接口,其中模型訓(xùn)練接口的內(nèi)部實現(xiàn)是基于numpy庫實現(xiàn)的。比如很常見的線性回歸模型,參數(shù)估計調(diào)用的是numpy.linalg.lstsq函數(shù)。

numpy的核心結(jié)構(gòu):ndarray

以下內(nèi)容摘錄自用Python做科學(xué)計算

a = np.array([[0,1,2],[3,4,5],[6,7,8]], dtype=np.float32)

ndarray是numpy的核心數(shù)據(jù)結(jié)構(gòu)。我們來看一下ndarray如何在內(nèi)存中儲存的:關(guān)于數(shù)組的描述信息保存在一個數(shù)據(jù)結(jié)構(gòu)中,這個結(jié)構(gòu)引用兩個對象,一塊用于保存數(shù)據(jù)的存儲區(qū)域和一個用于描述元素類型的dtype對象。

數(shù)據(jù)存儲區(qū)域保存著數(shù)組中所有元素的二進制數(shù)據(jù),dtype對象則知道如何將元素的二進制數(shù)據(jù)轉(zhuǎn)換為可用的值。數(shù)組的維數(shù)、大小等信息都保存在ndarray數(shù)組對象的數(shù)據(jù)結(jié)構(gòu)中。

strides中保存的是當(dāng)每個軸的下標增加1時,數(shù)據(jù)存儲區(qū)中的指針所增加的字節(jié)數(shù)。例如圖中的strides為12,4,即第0軸的下標增加1時,數(shù)據(jù)的地址增加12個字節(jié):即a[1,0]的地址比a[0,0]的地址要高12個字節(jié),正好是3個單精度浮點數(shù)的總字節(jié)數(shù);第1軸下標增加1時,數(shù)據(jù)的地址增加4個字節(jié),正好是單精度浮點數(shù)的字節(jié)數(shù)。

以下內(nèi)容總結(jié)自Numpy官方文檔Numpy basics

關(guān)于ndarray的索引方式,有以下幾個重點需要記?。?/p>

雖然x[0,2] = x0,但是前者效率比后者高,因為后者在應(yīng)用第一個索引后需要先創(chuàng)建一個temporary array,然后再應(yīng)用第二個索引,最后找到目標值。

分片操作不會引發(fā)copy操作,而是創(chuàng)建原ndarray的view;他們所指向的內(nèi)存是同一片區(qū)域,無論是修改原ndarray還是修改view,都會同時改變二者的值。

index array和boolean index返回的是copy,不是view。

關(guān)于上面列舉的分片操作不會引發(fā)copy操作,我們來進一步探討一下。先看一下numpy的例子:

再來看一下R的例子:

可以看到numpy和R在矩陣的分片操作有不同的設(shè)計理念:在R里分片操作會引起數(shù)據(jù)的復(fù)制,在numpy里不會。事實上,R的設(shè)計理念很多時候可以用一句話來概括:copy on modify,一旦對數(shù)據(jù)有修改就會引起內(nèi)存上的復(fù)制操作,這個操作要花不少時間,因此經(jīng)常會聽到人們抱怨R費內(nèi)存且速度慢。所以,我們可以看到numpy在處理這件事情上明顯要用心很多,根據(jù)場景設(shè)計了不同的策略,不是簡單地采用R的一刀切方式。當(dāng)然,這也帶來了一些學(xué)習(xí)成本,需要對numpy足夠熟悉才能避免踩坑。R社區(qū)里對copy on modify的哲學(xué)也有詬病并在努力改變,比如同是data.frame操作庫的data.table和dplyr,data.table性能比dplyr高很多,部分原因也是data.table規(guī)避了copy on modify的方式。

Structured Array

根據(jù)numpy的官方文檔,定義結(jié)構(gòu)化數(shù)組有四種方式。本文采用字典方法,通過定義一個dtype對象實現(xiàn),需要指定的鍵值有names和formats。

persontype = np.dtype({
        "names": ["name", "age", "weight"], 
        "formats": ["S32", "i", "f"]
    })
a = np.array([("Zhang", 32, 75.5), ("Wang", 24, 65.2)], dtype=persontype)

我們用IPython的計時函數(shù)看一下提取數(shù)據(jù)的效率:

%timeit a[1]
%timeit a["name"]
%timeit a[1]["name"]
%timeit a["name"][1]

輸出結(jié)果如下:

The slowest run took 46.83 times longer than the fastest. This could mean that an intermediate result is being cached.
1000000 loops, best of 3: 153 ns per loop
The slowest run took 34.34 times longer than the fastest. This could mean that an intermediate result is being cached.
10000000 loops, best of 3: 174 ns per loop
The slowest run took 13.00 times longer than the fastest. This could mean that an intermediate result is being cached.
1000000 loops, best of 3: 1.08 μs per loop
The slowest run took 9.84 times longer than the fastest. This could mean that an intermediate result is being cached.
1000000 loops, best of 3: 412 ns per loop

從上面的結(jié)果,我們發(fā)現(xiàn),獲取相同的數(shù)據(jù)有多種操作,不同的操作性能差別很大。我做了一個推測,純粹是瞎猜:numpy在建立結(jié)構(gòu)化數(shù)組時,將整個結(jié)構(gòu)體連續(xù)存儲在一起,即按行存儲,因此a[1]的速度最快;但是為了保證提取列的效率,對a["name"]建立了索引,因此a["name"]的效率也很高;但是這個索引只對整個a起作用,如果輸入只有a的一部分,仍然需要遍歷整個a,去提取出對應(yīng)的數(shù)據(jù),因此a[1]["name"]a["name"][1]的效率差很多。

關(guān)于作者:丹追兵:數(shù)據(jù)分析師一枚,編程語言python和R,使用Spark、Hadoop、Storm、ODPS。本文出自丹追兵的pytrafficR專欄,轉(zhuǎn)載請注明作者與出處:https://segmentfault.com/blog...

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/38169.html

相關(guān)文章

  • SegmentFault 技術(shù)周刊 Vol.30 - 學(xué)習(xí) Python 來做一些神奇好玩事情吧

    摘要:學(xué)習(xí)筆記七數(shù)學(xué)形態(tài)學(xué)關(guān)注的是圖像中的形狀,它提供了一些方法用于檢測形狀和改變形狀。學(xué)習(xí)筆記十一尺度不變特征變換,簡稱是圖像局部特征提取的現(xiàn)代方法基于區(qū)域圖像塊的分析。本文的目的是簡明扼要地說明的編碼機制,并給出一些建議。 showImg(https://segmentfault.com/img/bVRJbz?w=900&h=385); 前言 開始之前,我們先來看這樣一個提問: pyth...

    lifesimple 評論0 收藏0
  • 淺談支撐起支付寶整個“11-11”幕后功臣OceanBase數(shù)據(jù)

    摘要:簡介本文首發(fā)公眾號一名打字員據(jù)悉,年的月份,螞蟻金服已經(jīng)宣布,螞蟻金服及阿里巴巴自研的關(guān)系型數(shù)據(jù)庫已經(jīng)支撐起和淘寶的日常業(yè)務(wù)需求,成功替換了之前所采用的單機數(shù)據(jù)庫如或者開源的。 簡介 Tip:本文首發(fā)公眾號【一名打字員】 據(jù)悉,17年的4月份,螞蟻金服已經(jīng)宣布,螞蟻金服及阿里巴巴自研的關(guān)系型數(shù)據(jù)庫OceanBase已經(jīng)支撐起Tmall和淘寶的日常業(yè)務(wù)需求,成功替換了之前所采用的單機數(shù)據(jù)...

    zhoutao 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<