摘要:一般使用或者調(diào)用外部腳本需要注意的是,這里的方向是相對(duì)于主程序的,所以就是子進(jìn)程的輸出,而是子進(jìn)程的輸入。基于同樣的原因,假如調(diào)用了方法等待子進(jìn)程執(zhí)行完畢而沒(méi)有及時(shí)處理輸出的話(huà),就會(huì)造成死鎖。
最近有一項(xiàng)需求,要定時(shí)判斷任務(wù)執(zhí)行條件是否滿(mǎn)足并觸發(fā) Spark 任務(wù),平時(shí)編寫(xiě) Spark 任務(wù)時(shí)都是封裝為一個(gè) Jar 包,然后采用 Shell 腳本形式傳入所需參數(shù)執(zhí)行,考慮到本次判斷條件邏輯復(fù)雜,只用 Shell 腳本完成不利于開(kāi)發(fā)測(cè)試,所以調(diào)研使用了 Python 和 Java 分別調(diào)用 Spark 腳本的方法。
使用版本為 Python 3.6.4 及 JDK 8
Python主要使用 subprocess 庫(kù)。Python 的 API 變動(dòng)比較頻繁,在 3.5 之后新增了 run 方法,這大大降低了使用難度和遇見(jiàn) Bug 的概率。
subprocess.run(["ls", "-l"]) subprocess.run(["sh", "/path/to/your/script.sh", "arg1", "arg2"])
為什么說(shuō)使用 run 方法可以降低遇見(jiàn) Bug 的概率呢?
在沒(méi)有 run 方法之前,我們一般調(diào)用其他的高級(jí)方法,即 Older high-level API,比如 call,check_all,或者直接創(chuàng)建 Popen 對(duì)象。因?yàn)槟J(rèn)的輸出是 console,這時(shí)如果對(duì) API 不熟悉或者沒(méi)有仔細(xì)看 doc,想要等待子進(jìn)程運(yùn)行完畢并獲取輸出,使用了 stdout = PIPE 再加上 wait 的話(huà),當(dāng)輸出內(nèi)容很多時(shí)會(huì)導(dǎo)致 Buffer 寫(xiě)滿(mǎn),進(jìn)程就一直等待讀取,形成死鎖。在一次將 Spark 的 log 輸出到 console 時(shí),就遇到了這種奇怪的現(xiàn)象,下邊的腳本可以模擬:
# a.sh for i in {0..9999}; do echo "***************************************************" done
p = subprocess.Popen(["sh", "a.sh"], stdout=subprocess.PIPE) p.wait()
而 call 則在方法內(nèi)部直接調(diào)用了 wait 產(chǎn)生相同的效果。
要避免死鎖,則必須在 wait 方法調(diào)用之前自行處理掉輸入輸出,或者使用推薦的 communicate 方法。 communicate 方法是在內(nèi)部生成了讀取線(xiàn)程分別讀取 stdout stderr,從而避免了 Buffer 寫(xiě)滿(mǎn)。而之前提到的新的 run 方法,就是在內(nèi)部調(diào)用了 communicate。
stdout, stderr = process.communicate(input, timeout=timeout)Java
說(shuō)完了 Python,Java 就簡(jiǎn)單多了。
Java 一般使用 Runtime.getRuntime().exec() 或者 ProcessBuilder 調(diào)用外部腳本:
Process p = Runtime.getRuntime().exec(new String[]{"ls", "-al"}); Scanner sc = new Scanner(p.getInputStream()); while (sc.hasNextLine()) { System.out.println(sc.nextLine()); } // or Process p = new ProcessBuilder("sh", "a.sh").start(); p.waitFor(); // dead lock
需要注意的是,這里 stream 的方向是相對(duì)于主程序的,所以 getInputStream() 就是子進(jìn)程的輸出,而 getOutputStream() 是子進(jìn)程的輸入。
基于同樣的 Buffer 原因,假如調(diào)用了 waitFor 方法等待子進(jìn)程執(zhí)行完畢而沒(méi)有及時(shí)處理輸出的話(huà),就會(huì)造成死鎖。
由于 Java API 很少變動(dòng),所以沒(méi)有像 Python 那樣提供新的 run 方法,但是開(kāi)源社區(qū)也給出了自己的方案,如commons exec,或 http://www.baeldung.com/run-shell-command-in-java,或 alvin alexander 給出的方案(雖然不完整)。
// commons exec,要想獲取輸出的話(huà),相比 python 來(lái)說(shuō)要復(fù)雜一些 CommandLine commandLine = CommandLine.parse("sh a.sh"); ByteArrayOutputStream out = new ByteArrayOutputStream(); PumpStreamHandler streamHandler = new PumpStreamHandler(out); Executor executor = new DefaultExecutor(); executor.setStreamHandler(streamHandler); executor.execute(commandLine); String output = new String(out.toByteArray());
但其中的思想和 Python 都是統(tǒng)一的,就是在后臺(tái)開(kāi)啟新線(xiàn)程讀取子進(jìn)程的輸出,防止 Buffer 寫(xiě)滿(mǎn)。
另一個(gè)統(tǒng)一思想的地方就是,都推薦使用數(shù)組或 list 將輸入的 shell 命令分隔成多段,這樣的話(huà)就由系統(tǒng)來(lái)處理空格等特殊字符問(wèn)題。
Original article in my Blog
參考:
https://dcreager.net/2009/08/06/subprocess-communicate-drawbacks/
https://alvinalexander.com/java/java-exec-processbuilder-process-1
https://www.javaworld.com/article/2071275/core-java/when-runtime-exec---won-t.html
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/68296.html
摘要:一般使用或者調(diào)用外部腳本需要注意的是,這里的方向是相對(duì)于主程序的,所以就是子進(jìn)程的輸出,而是子進(jìn)程的輸入?;谕瑯拥脑颍偃缯{(diào)用了方法等待子進(jìn)程執(zhí)行完畢而沒(méi)有及時(shí)處理輸出的話(huà),就會(huì)造成死鎖。 最近有一項(xiàng)需求,要定時(shí)判斷任務(wù)執(zhí)行條件是否滿(mǎn)足并觸發(fā) Spark 任務(wù),平時(shí)編寫(xiě) Spark 任務(wù)時(shí)都是封裝為一個(gè) Jar 包,然后采用 Shell 腳本形式傳入所需參數(shù)執(zhí)行,考慮到本次判斷條件...
摘要:入門(mén),第一個(gè)這是一門(mén)很新的語(yǔ)言,年前后正式公布,算起來(lái)是比較年輕的編程語(yǔ)言了,更重要的是它是面向程序員的函數(shù)式編程語(yǔ)言,它的代碼運(yùn)行在之上。它通過(guò)編輯類(lèi)工具,帶來(lái)了先進(jìn)的編輯體驗(yàn),增強(qiáng)了語(yǔ)言服務(wù)。 showImg(https://segmentfault.com/img/bV1xdq?w=900&h=385); 新的一年不知不覺(jué)已經(jīng)到來(lái)了,總結(jié)過(guò)去的 2017,相信小伙們一定有很多收獲...
摘要:入門(mén),第一個(gè)這是一門(mén)很新的語(yǔ)言,年前后正式公布,算起來(lái)是比較年輕的編程語(yǔ)言了,更重要的是它是面向程序員的函數(shù)式編程語(yǔ)言,它的代碼運(yùn)行在之上。它通過(guò)編輯類(lèi)工具,帶來(lái)了先進(jìn)的編輯體驗(yàn),增強(qiáng)了語(yǔ)言服務(wù)。 showImg(https://segmentfault.com/img/bV1xdq?w=900&h=385); 新的一年不知不覺(jué)已經(jīng)到來(lái)了,總結(jié)過(guò)去的 2017,相信小伙們一定有很多收獲...
摘要:入門(mén),第一個(gè)這是一門(mén)很新的語(yǔ)言,年前后正式公布,算起來(lái)是比較年輕的編程語(yǔ)言了,更重要的是它是面向程序員的函數(shù)式編程語(yǔ)言,它的代碼運(yùn)行在之上。它通過(guò)編輯類(lèi)工具,帶來(lái)了先進(jìn)的編輯體驗(yàn),增強(qiáng)了語(yǔ)言服務(wù)。 showImg(https://segmentfault.com/img/bV1xdq?w=900&h=385); 新的一年不知不覺(jué)已經(jīng)到來(lái)了,總結(jié)過(guò)去的 2017,相信小伙們一定有很多收獲...
摘要:在這個(gè)范圍廣大的并發(fā)技術(shù)領(lǐng)域當(dāng)中多線(xiàn)程編程可以說(shuō)是基礎(chǔ)和核心,大多數(shù)抽象并發(fā)問(wèn)題的構(gòu)思與解決都是基于多線(xiàn)程模型來(lái)進(jìn)行的。一般來(lái)說(shuō),多線(xiàn)程程序會(huì)面臨三類(lèi)問(wèn)題正確性問(wèn)題效率問(wèn)題死鎖問(wèn)題。 多線(xiàn)程編程或者說(shuō)范圍更大的并發(fā)編程是一種非常復(fù)雜且容易出錯(cuò)的編程方式,但是我們?yōu)槭裁催€要冒著風(fēng)險(xiǎn)艱辛地學(xué)習(xí)各種多線(xiàn)程編程技術(shù)、解決各種并發(fā)問(wèn)題呢? 因?yàn)椴l(fā)是整個(gè)分布式集群的基礎(chǔ),通過(guò)分布式集群不僅可以大...
閱讀 2052·2023-04-25 15:11
閱讀 3516·2021-09-23 11:57
閱讀 1388·2021-07-26 23:38
閱讀 1328·2019-08-30 15:54
閱讀 646·2019-08-30 15:53
閱讀 3257·2019-08-26 13:36
閱讀 998·2019-08-26 12:01
閱讀 2873·2019-08-23 16:21