Apache Spark 的一些淺見。

jsyzchen 發(fā)布于2019-07-24 10:28 / 3109人閱讀

摘要：二求文件中包含包租婆的行數(shù)從一個(gè)總計(jì)行的文件中找出所有包含包租婆的行數(shù)，我們不用太動(dòng)腦筋就有一個(gè)算法讀一行，判斷這一行有包租婆嗎如果有，全局變量加。在臺(tái)機(jī)器上分別執(zhí)行笨辦法計(jì)算包含包租婆的行數(shù)。

一、搬磚 vs. 分布式計(jì)算

一個(gè)人搬磚很累，幾個(gè)人一起搬就會(huì)輕松很多，也會(huì)快很多：

分布并行計(jì)算和幾個(gè)人一起搬磚的意思是一致的，一個(gè)資源密集型的任務(wù)（搬磚或計(jì)算），需要一組資源（小伙伴或計(jì)算節(jié)點(diǎn)），并行地完成：

計(jì)算任務(wù) => 搬磚

計(jì)算節(jié)點(diǎn) => 小伙伴

當(dāng)計(jì)算任務(wù)過重時(shí)，我們就把計(jì)算任務(wù)拆分，然后放到多個(gè)計(jì)算節(jié)點(diǎn)上同時(shí)執(zhí)行,這就是分布并行計(jì)算。

二、求文件中包含"包租婆"的行數(shù)

從一個(gè)總計(jì)100行的文件中找出所有包含“包租婆”的行數(shù)，我們不用太動(dòng)腦筋就有一個(gè)算法：

讀一行，判斷這一行有“包租婆”嗎？如果有，全局變量count加1。

文件到末尾了嗎？如果沒有，跳轉(zhuǎn)到第1步繼續(xù)執(zhí)行。

打印count。

這幾步程序，我打賭在你的計(jì)算機(jī)上可以一眨眼的功夫就執(zhí)行完。但是如果這個(gè)文件有100萬行呢？如果還用剛才不動(dòng)腦筋的笨算法，可能就不好交差了......

并行分布計(jì)算采用了一個(gè)大智若愚的辦法，通過將笨算法丟給一群機(jī)器同時(shí)去算，實(shí)現(xiàn)規(guī)定時(shí)間內(nèi)規(guī)定任務(wù)的完成。你要知道，如今流行的Map/Reduce就是這么干的，這聽起來不夠高端，也確實(shí)引起了一些數(shù)據(jù)庫(kù)專家（聰明人）的非議。不過，不管黑貓白貓，能抓住老鼠的都是好貓。

三、Spark簡(jiǎn)化了分布式計(jì)算的開發(fā)

如果要把剛才的任務(wù)進(jìn)行分布計(jì)算（假設(shè)有10臺(tái)機(jī)器可以用），需要對(duì)原始的笨算法做一些調(diào)整：

把100萬條數(shù)據(jù)分成10份，每份10萬條。

在10臺(tái)機(jī)器上分別執(zhí)行笨辦法計(jì)算包含“包租婆”的行數(shù)。

匯總合并10臺(tái)機(jī)器的計(jì)算結(jié)果，即count，打印出來。

Oh...NO.....太...累...了...

好在有Spark的存在！我們只要把數(shù)據(jù)和計(jì)算程序交給Spark，它會(huì)機(jī)智地進(jìn)行數(shù)據(jù)切分、算法復(fù)制、分布執(zhí)行、結(jié)果合并。

四、Spark的計(jì)算范式：數(shù)據(jù)集上的計(jì)算

Spark用起來的確簡(jiǎn)單，但有一點(diǎn)特別要注意，你得按照Spark的范式寫算法。

Spark是在數(shù)據(jù)集的層次上進(jìn)行分布并行計(jì)算，是的，它只認(rèn)成堆的數(shù)據(jù)：

我們提交給Spark的計(jì)算任務(wù)，必須滿足兩個(gè)條件：

數(shù)據(jù)是可以分塊的，每塊構(gòu)成一個(gè)集合。
算法只能在集合級(jí)別執(zhí)行操作。
比如，對(duì)于文本文件，在Spark中，一行就是一條記錄，若干條記錄組成一個(gè)集合。我們原來的算法直接在每一行上進(jìn)行計(jì)算，就不行了。需要先構(gòu)建數(shù)據(jù)集，然后通過數(shù)據(jù)集的操作，實(shí)現(xiàn)我們的目的。

五、SQL中的數(shù)據(jù)集

如果你熟悉SQL，可以用SQL的思維考慮下什么是集合操作：

UPDATE USER SET GENDER="FEMALE"

上面的SQL語(yǔ)句就是一個(gè)集合操作，對(duì)一個(gè)數(shù)據(jù)集合，執(zhí)行一條UPDATE操作，整個(gè)數(shù)據(jù)集都被修改了。

UPDATE語(yǔ)句有兩個(gè)特點(diǎn)，這也是集合操作的要素：

1.對(duì)集合的每個(gè)記錄執(zhí)行相同的操作

UPDATE更新了集合中的所有記錄，這些記錄的 GENDER 字段值都被更新為 FEMALE 。

2.這個(gè)操作的具體行為是用戶指定的

UPDATE通過SET子句，指定更新那些字段，怎么更新。

六、JavaScript中的數(shù)據(jù)集

JavaScript中數(shù)組對(duì)象的map方法也是一種集合操作。map方法將一個(gè)數(shù)組的每一個(gè)成員變換為新的成員，并返回變換后新的集合。

var a=[1,2,3,4];
a.map(function(d){return d*2;});
console.log(a);

上面的JavaScript代碼對(duì)一個(gè)數(shù)組執(zhí)行map方法，將每一個(gè)成員進(jìn)行倍乘。結(jié)果是獲得一個(gè)新的數(shù)組，比如在這里，將得到[2,4,6,8]。

這個(gè)例子也說明了集合操作的兩個(gè)要素：

1.對(duì)集合的每個(gè)記錄執(zhí)行相同的操作

在map方法執(zhí)行中，每個(gè)數(shù)組成員都被轉(zhuǎn)換為原始值的2倍。

2.這個(gè)操作的具體行為是用戶指定的

map方法使用一個(gè)匿名函數(shù)，指定如何對(duì)每一個(gè)原始數(shù)據(jù)進(jìn)行變換。

七、將算法移植到Spark上

現(xiàn)在我們修改原始的笨算法，使之適用于Spark：

將數(shù)據(jù)載入并構(gòu)造數(shù)據(jù)集
在Spark中，這個(gè)數(shù)據(jù)集被稱為RDD ：彈性分布數(shù)據(jù)集。
對(duì)數(shù)據(jù)集進(jìn)行map操作
指定行為：如果一行原始記錄包含“包租婆”，該行記錄映射為新值1，否則映射為新值0 。
對(duì)map后的數(shù)據(jù)集進(jìn)行collect操作，獲得合并的結(jié)果。
上面的map操作，和前面JavaScript數(shù)組的map方法類似，將原始記錄映射為新的記錄，并返回一個(gè)新的RDD。 collect操作提取RDD中的全部數(shù)據(jù)到本地。

魔術(shù)發(fā)生在RDD上。Spark的RDD自動(dòng)進(jìn)行數(shù)據(jù)的切分和結(jié)果的整合。我們假裝不知道就好了，就像這一切只發(fā)生在本地的一臺(tái)機(jī)器上。

八、Spark操作符

Spark提供了80多種操作符對(duì)集合進(jìn)行操作。我們列舉常用的一些供你建立一點(diǎn)基本概念，以便了解Spark可以支持什么：

變換

變換操作總是獲得一個(gè)新的RDD:

map(func) : 將原始數(shù)據(jù)集的每一個(gè)記錄使用傳入的函數(shù)func ，映射為一個(gè)新的記錄，并返回新的RDD。

filter(func) : 返回一個(gè)新的RDD，僅包含那些符合條件的記錄，即func返回true 。

flatMap(func) : 和map類似，只是原始記錄的一條可能被映射為新的RDD中的多條。

union(otherDataset) : 合并兩個(gè)RDD，返回一個(gè)新的RDD 。

intersection(otherDataset)：返回一個(gè)新的RDD，僅包含兩個(gè)RDD共有的記錄。

動(dòng)作

動(dòng)作操作總是獲得一個(gè)本地?cái)?shù)據(jù)，這意味著控制權(quán)回到你的程序了:

reduce(func) : 使用func對(duì)RDD的記錄進(jìn)行聚合。

collect() : 返回RDD中的所有記錄

count() : 返回RDD中的記錄總數(shù)

對(duì)spark中Scala語(yǔ)言快速掃盲、交互分析、RDD動(dòng)作、RDD變換的介紹如下：
http://www.hubwiz.com/course/5449c691e564e50960f1b7a9/

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/35731.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

jsyzchen

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

pip3安裝tensorflow

閱讀 2796·2023-04-26 01:47
rnn

閱讀 3602·2023-04-25 23:45
4G DTU+MODBUS溫濕度傳感器+MQTT連接電信云

閱讀 2482·2021-10-13 09:39
程序員的自我修養(yǎng) 第四章庫(kù)與運(yùn)行庫(kù) - 系統(tǒng)調(diào)用中斷

閱讀 617·2021-10-09 09:44
自己的主機(jī)做服務(wù)器網(wǎng)站如何備案-我用自己的電腦做服務(wù)器，網(wǎng)站怎么備案？

閱讀 1808·2021-09-22 15:59
HTML和DIV表格在線生成工具可視化拖拽畫表格

閱讀 2787·2021-09-13 10:33
Python爬蟲實(shí)戰(zhàn)之爬淘寶商品并做數(shù)據(jù)分析，現(xiàn)在賺錢沒點(diǎn)技術(shù)還真不行！

閱讀 1734·2021-09-03 10:30
[CSS]關(guān)于盒子模型

閱讀 667·2019-08-30 15:53

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購(gòu)！

Apache Spark 的一些淺見。

相關(guān)文章

4月15日云棲精選夜讀 | 賈揚(yáng)清：我對(duì)人工智能方向的一點(diǎn)淺見

Spark SQL學(xué)習(xí)筆記

**Leaf in the Wild: Stratio整合Apache和MongoDB為世界上最大的銀行**

**『 Spark 』5. 這些年，你不能錯(cuò)過的 spark 學(xué)習(xí)資源**

發(fā)表評(píng)論

0條評(píng)論

jsyzchen

男|高級(jí)講師

TA的文章

pip3安裝tensorflow

rnn

4G DTU+MODBUS溫濕度傳感器+MQTT連接電信云

程序員的自我修養(yǎng) 第四章庫(kù)與運(yùn)行庫(kù) - 系統(tǒng)調(diào)用中斷

自己的主機(jī)做服務(wù)器網(wǎng)站如何備案-我用自己的電腦做服務(wù)器，網(wǎng)站怎么備案？

HTML和DIV表格在線生成工具可視化拖拽畫表格

Python爬蟲實(shí)戰(zhàn)之爬淘寶商品并做數(shù)據(jù)分析，現(xiàn)在賺錢沒點(diǎn)技術(shù)還真不行！

[CSS]關(guān)于盒子模型

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購(gòu)！

Apache Spark 的一些淺見。

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購(gòu)！

Apache Spark 的一些淺見。