使用 Python 讀取 8 GB 大小的文件

animabear 發(fā)布于2019-07-25 10:26 / 3072人閱讀

摘要：筆試問(wèn)題如何使用讀取個(gè)大小的文件這個(gè)問(wèn)題其實(shí)在筆試中會(huì)經(jīng)常遇到的個(gè)題目。解決方案在中除了使用方法讀取文件內(nèi)容外還有另外個(gè)方法和也可以進(jìn)行內(nèi)容的讀取。結(jié)果發(fā)現(xiàn)使用的方式還是會(huì)導(dǎo)致內(nèi)存不足的情況發(fā)生而通過(guò)讀取指定字節(jié)的方式則可以處理完這個(gè)文件。

筆試問(wèn)題

如何使用Python讀取1個(gè)8GB大小的文件,這個(gè)問(wèn)題其實(shí)在筆試中會(huì)經(jīng)常遇到的1個(gè)題目。對(duì)于在Python中讀取文件的操作,一般我們會(huì)這樣來(lái)操作:

f = open("filename","rb")
f.read()

下面我們來(lái)找1個(gè)比較大的文件,比如1個(gè)nginx的日志文件,記得之前有一次公司的1天的nginx日志文件解壓為3GB大小,不得不對(duì)其進(jìn)行切分。

發(fā)現(xiàn)問(wèn)題

這里我們找到了1個(gè)3G大小的文件。接下來(lái),我們使用普通的讀取方式來(lái)查看該文件的內(nèi)容:

f=open("test","rb")
data=f.read()
---------------------------------------------------------------------------
MemoryError                               Traceback (most recent call last)
...
MemoryError:

我們可以看到1個(gè)MemoryError的錯(cuò)誤,說(shuō)明該無(wú)文件無(wú)法被裝載在內(nèi)存中發(fā)生溢出了。
下面我們來(lái)思考下為什么內(nèi)存會(huì)溢出了,在我們打開文件的時(shí)候并沒(méi)有發(fā)生任何異常,而在我們調(diào)用read方法時(shí)才出現(xiàn)問(wèn)題。我們知道,文件對(duì)象的read方法會(huì)嘗試將所有內(nèi)容以1行的形式讀入,顯然這種方式對(duì)于大文件是不可行的。

解決方案

在Python中,除了使用read方法讀取文件內(nèi)容外,還有另外2個(gè)方法readline和readlines也可以進(jìn)行內(nèi)容的讀取。
既然默認(rèn)read方法是一次性的將內(nèi)容都讀取到內(nèi)存中,那么我們是否可以指定其每次讀取的長(zhǎng)度來(lái)解決這個(gè)問(wèn)題呢?

data = f.read(1024)
while 1:
  #處理該行的代碼
  data = f.read(1024)

而readlines會(huì)返回每1行讀取的內(nèi)容的列表,因此有一定風(fēng)險(xiǎn)的。

for l in f.readlines():
   #處理這1行的代碼

那么,我們每次讀取1行總可以了把。這樣我們可以通過(guò)如下的方式來(lái)進(jìn)行:

line = f.readline()
while 1:
    #處理該行的代碼
    line = f.readline()

我們通過(guò)1個(gè)無(wú)限循環(huán)的方式來(lái)進(jìn)行讀取。結(jié)果發(fā)現(xiàn),使用readlines的方式還是會(huì)導(dǎo)致內(nèi)存不足的情況發(fā)生,而通過(guò)讀取指定字節(jié)的方式則可以處理完這個(gè)文件。
在上面的解決方案中,我們需要手動(dòng)處理文件讀取的大小,并在合適的情況退出讀取的操作。
那么,我們有沒(méi)有更好的解決方案呢?實(shí)際上是有的,在Python的手冊(cè)中,有1個(gè)xreadlines的方法,這個(gè)方法就類比range和xrange函數(shù)的區(qū)別。這個(gè)方法返回類似iter(f)的字符串,但是遺憾的是該方法在Python版本2.3中已經(jīng)被淘汰了,官方建議我們使用for語(yǔ)句來(lái)替代:

for line in f:
    #處理該行的代碼

通過(guò)這種方式,Python將處理文件對(duì)象為1個(gè)迭代器,并自動(dòng)使用緩存IO和內(nèi)存管理,這樣我們就不需要關(guān)注大的文件了。

參考文件：

http://stackoverflow.com/questions/8009882/how-to-read-large-file-line-by-line-in-python

云服務(wù)器 GPU云服務(wù)器讀取云服務(wù)器上的圖片大小 python文件讀取 python文件讀取問(wèn)題 python讀取文件每一行

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/37964.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

animabear

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

conda卸載tensorflow

閱讀 2808·2023-04-25 18:06
無(wú)線網(wǎng)絡(luò)技術(shù)學(xué)習(xí)總結(jié)

閱讀 2604·2021-11-22 09:34
盤點(diǎn) GitHub 2021年度盛會(huì)｜附視頻

閱讀 1697·2021-11-08 13:16
幾種典型的智慧農(nóng)業(yè)物聯(lián)網(wǎng)解決方案

閱讀 1323·2021-09-24 09:47
前端面試每日 3+1 —— 第135天

閱讀 3059·2019-08-30 15:44
web 多屏互動(dòng)顯示方案

閱讀 2784·2019-08-29 17:24
echarts 游客來(lái)源

閱讀 2597·2019-08-23 18:37
由一道題引申出的事件循環(huán)、letvar用法、iife、塊級(jí)作用域

閱讀 2446·2019-08-23 16:55

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

使用 Python 讀取 8 GB 大小的文件

相關(guān)文章

Python之路--python基礎(chǔ)2

**一個(gè)簡(jiǎn)單python爬蟲的實(shí)現(xiàn)——爬取電影信息**

奇技淫巧第二期

**如何優(yōu)化Python占用的內(nèi)存**

發(fā)表評(píng)論

0條評(píng)論

animabear

男|高級(jí)講師

TA的文章

conda卸載tensorflow

無(wú)線網(wǎng)絡(luò)技術(shù)學(xué)習(xí)總結(jié)

盤點(diǎn) GitHub 2021年度盛會(huì)｜附視頻

幾種典型的智慧農(nóng)業(yè)物聯(lián)網(wǎng)解決方案

前端面試每日 3+1 —— 第135天

web 多屏互動(dòng)顯示方案

echarts 游客來(lái)源

由一道題引申出的事件循環(huán)、letvar用法、iife、塊級(jí)作用域

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

使用 Python 讀取 8 GB 大小的文件

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！