Python-爬蟲工程師-面試總結(jié)

antz 發(fā)布于2019-07-31 11:06 / 682人閱讀

摘要：內(nèi)存池機(jī)制提供了對內(nèi)存的垃圾收集機(jī)制，但是它將不用的內(nèi)存放到內(nèi)存池而不是返回給操作系統(tǒng)。為了加速的執(zhí)行效率，引入了一個內(nèi)存池機(jī)制，用于管理對小塊內(nèi)存的申請和釋放。

注：答案一般在網(wǎng)上都能夠找到。
1.對if __name__ == "main"的理解陳述
2.python是如何進(jìn)行內(nèi)存管理的？
3.請寫出一段Python代碼實現(xiàn)刪除一個list里面的重復(fù)元素
4.Python里面如何拷貝一個對象？（賦值，淺拷貝，深拷貝的區(qū)別）
5.介紹一下except的用法和作用？
6.Python中__new__與__init__方法的區(qū)別
7.常用的網(wǎng)絡(luò)數(shù)據(jù)爬取方法
8.遇到過得反爬蟲策略以及解決方法
9.urllib 和 urllib2 的區(qū)別
10.設(shè)計一個基于session登錄驗證的爬蟲方案
11.列舉網(wǎng)絡(luò)爬蟲所用到的網(wǎng)絡(luò)數(shù)據(jù)包，解析包
12.熟悉的爬蟲框架
13.Python在服務(wù)器的部署流程，以及環(huán)境隔離
14.Django 和 Flask 的相同點與不同點，如何進(jìn)行選擇？
15.寫一個Python中的單例模式
16.Linux部署服務(wù)腳本命令(包括啟動和停止的shell腳本)
17.你用過多線程和異步嘛？除此之外你還用過什么方法來提高爬蟲效率？
18.POST 與 GET的區(qū)別

對if __name__ == "main"的理解陳述
__name__是當(dāng)前模塊名，當(dāng)模塊被直接運(yùn)行時模塊名為__main__，也就是當(dāng)前的模塊，當(dāng)模塊被導(dǎo)入時，模塊名就不是__main__，即代碼將不會執(zhí)行。

python是如何進(jìn)行內(nèi)存管理的？
a、對象的引用計數(shù)機(jī)制
python內(nèi)部使用引用計數(shù)，來保持追蹤內(nèi)存中的對象，Python內(nèi)部記錄了對象有多少個引用，即引用計數(shù)，當(dāng)對象被創(chuàng)建時就創(chuàng)建了一個引用計數(shù)，當(dāng)對象不再需要時，這個對象的引用計數(shù)為0時，它被垃圾回收。
b、垃圾回收
1>當(dāng)一個對象的引用計數(shù)歸零時，它將被垃圾收集機(jī)制處理掉。
2>當(dāng)兩個對象a和b相互引用時，del語句可以減少a和b的引用計數(shù)，并銷毀用于引用底層對象的名稱。然而由于每個對象都包含一個對其他對象的應(yīng)用，因此引用計數(shù)不會歸零，對象也不會銷毀。（從而導(dǎo)致內(nèi)存泄露）。為解決這一問題，解釋器會定期執(zhí)行一個循環(huán)檢測器，搜索不可訪問對象的循環(huán)并刪除它們。
c、內(nèi)存池機(jī)制
Python提供了對內(nèi)存的垃圾收集機(jī)制，但是它將不用的內(nèi)存放到內(nèi)存池而不是返回給操作系統(tǒng)。
1>Pymalloc機(jī)制。為了加速Python的執(zhí)行效率，Python引入了一個內(nèi)存池機(jī)制，用于管理對小塊內(nèi)存的申請和釋放。
2>Python中所有小于256個字節(jié)的對象都使用pymalloc實現(xiàn)的分配器，而大的對象則使用系統(tǒng)的malloc。
3>對于Python對象，如整數(shù)，浮點數(shù)和List，都有其獨(dú)立的私有內(nèi)存池，對象間不共享他們的內(nèi)存池。也就是說如果你分配又釋放了大量的整數(shù)，用于緩存這些整數(shù)的內(nèi)存就不能再分配給浮點數(shù)。

請寫出一段Python代碼實現(xiàn)刪除一個list里面的重復(fù)元素

# 1.使用set函數(shù)
list = [1, 3, 4, 5, 51, 2, 3]
set(list)
# 2.使用字典函數(shù)，
>>> a = [1, 2, 4, 2, 4, 5, 6, 5, 7, 8, 9, 0]
>>> b = {}
>>> b = b.fromkeys(a)
>>> c = list(b.keys())
>>> c

Python里面如何拷貝一個對象？（賦值，淺拷貝，深拷貝的區(qū)別）
賦值（=），就是創(chuàng)建了對象的一個新的引用，修改其中任意一個變量都會影響到另一個。
淺拷貝：創(chuàng)建一個新的對象，但它包含的是對原始對象中包含項的引用（如果用引用的方式修改其中一個對象，另外一個也會修改改變）{1,完全切片方法;2，工廠函數(shù)，如list();3，copy模塊的copy()函數(shù)}
深拷貝：創(chuàng)建一個新的對象，并且遞歸的復(fù)制它所包含的對象（修改其中一個，另外一個不會改變）{copy模塊的deep.deepcopy()函數(shù)}

介紹一下except的用法和作用？
try…except…except…else…
執(zhí)行try下的語句，如果引發(fā)異常，則執(zhí)行過程會跳到except語句。對每個except分支順序嘗試執(zhí)行，如果引發(fā)的異常與except中的異常組匹配，執(zhí)行相應(yīng)的語句。如果所有的except都不匹配，則異常會傳遞到下一個調(diào)用本代碼的最高層try代碼中。
try下的語句正常執(zhí)行，則執(zhí)行else塊代碼。如果發(fā)生異常，就不會執(zhí)行如果存在finally語句，最后總是會執(zhí)行。

Python中__new__與__init__方法的區(qū)別
__new__:它是創(chuàng)建對象時調(diào)用，會返回當(dāng)前對象的一個實例，可以用__new__來實現(xiàn)單例
__init__:它是創(chuàng)建對象后調(diào)用，對當(dāng)前對象的一些實例初始化，無返回值

常用的網(wǎng)絡(luò)數(shù)據(jù)爬取方法

正則表達(dá)式

Beautiful Soup

Lxml

遇到過得反爬蟲策略以及解決方法
1.通過headers反爬蟲
2.基于用戶行為的發(fā)爬蟲：(同一IP短時間內(nèi)訪問的頻率)
3.動態(tài)網(wǎng)頁反爬蟲(通過ajax請求數(shù)據(jù)，或者通過JavaScript生成)
4.對部分?jǐn)?shù)據(jù)進(jìn)行加密處理的(數(shù)據(jù)是亂碼)
解決方法：
對于基本網(wǎng)頁的抓取可以自定義headers,添加headers的數(shù)據(jù)
使用多個代理ip進(jìn)行抓取或者設(shè)置抓取的頻率降低一些，
動態(tài)網(wǎng)頁的可以使用selenium + phantomjs 進(jìn)行抓取
對部分?jǐn)?shù)據(jù)進(jìn)行加密的，可以使用selenium進(jìn)行截圖，使用python自帶的pytesseract庫進(jìn)行識別，但是比較慢最直接的方法是找到加密的方法進(jìn)行逆向推理。

urllib 和 urllib2 的區(qū)別
urllib 和urllib2都是接受URL請求的相關(guān)模塊，但是urllib2可以接受一個Request類的實例來設(shè)置URL請求的headers，urllib僅可以接受URL。urllib不可以偽裝你的User-Agent字符串。
urllib提供urlencode()方法用來GET查詢字符串的產(chǎn)生，而urllib2沒有。這是為何urllib常和urllib2一起使用的原因。

設(shè)計一個基于session登錄驗證的爬蟲方案

列舉網(wǎng)絡(luò)爬蟲所用到的網(wǎng)絡(luò)數(shù)據(jù)包，解析包

網(wǎng)絡(luò)數(shù)據(jù)包 urllib、urllib2、requests

解析包 re、xpath、beautiful soup、lxml

熟悉的爬蟲框架
Scrapy框架根據(jù)自己的實際情況回答

Python在服務(wù)器的部署流程，以及環(huán)境隔離

Django 和 Flask 的相同點與不同點，如何進(jìn)行選擇？

寫一個Python中的單例模式

class Singleton(object):
    _instance = None
    def __new__(cls, *args, **kw):
        if not cls._instance:
            cls._instance = super(Singleton, cls).__new__(cls, *args, **kw)  
        return cls._instance  

class MyClass(Singleton):  
    a = 1
    
one = MyClass()
two = MyClass()

id(one) = id(two)
>>> True

Linux部署服務(wù)腳本命令(包括啟動和停止的shell腳本)

你用過多線程和異步嘛？除此之外你還用過什么方法來提高爬蟲效率？

scrapy-redis 分布式爬取

對于定向爬取可以用正則取代xpath

POST與 GET的區(qū)別

GET數(shù)據(jù)傳輸安全性低，POST傳輸數(shù)據(jù)安全性高，因為參數(shù)不會被保存在瀏覽器歷史或web服務(wù)器日志中；

在做數(shù)據(jù)查詢時，建議用GET方式；而在做數(shù)據(jù)添加、修改或刪除時，建議用POST方式；

GET在url中傳遞數(shù)據(jù)，數(shù)據(jù)信息放在請求頭中；而POST請求信息放在請求體中進(jìn)行傳遞數(shù)據(jù)；

GET傳輸數(shù)據(jù)的數(shù)據(jù)量較小，只能在請求頭中發(fā)送數(shù)據(jù)，而POST傳輸數(shù)據(jù)信息比較大，一般不受限制；

在執(zhí)行效率來說，GET比POST好

什么是lambda函數(shù)？它有什么好處?
lambda 表達(dá)式，通常是在需要一個函數(shù)，但是又不想費(fèi)神去命名一個函數(shù)的場合下使用，也就是指匿名函數(shù)
lambda函數(shù)：首要用途是指點短小的回調(diào)函數(shù)

lambda [arguments]:expression
>>> a=lambdax,y:x+y
>>> a(3,11)

GPU云服務(wù)器云服務(wù)器運(yùn)維工程師工作總結(jié) 前端工程師面試運(yùn)維工程師面試前端開發(fā)工程師面試

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/44645.html

發(fā)表評論

登陸后可評論

0條評論

antz

男|高級講師

我要關(guān)注我要私信

TA的文章

畢業(yè)設(shè)計 - 題目：基于單片機(jī)的指紋識別考勤系統(tǒng) - 嵌入式物聯(lián)網(wǎng)

閱讀 2547·2021-11-24 09:39
K210應(yīng)用5-使用中斷方式通過UART接收數(shù)據(jù)

閱讀 3444·2021-11-15 11:37
基于STM32的ESP8266 WIFI與ONENET通信連接（2），云平臺以及手機(jī)APP數(shù)據(jù)顯示

閱讀 2313·2021-10-08 10:04
外貿(mào)建站需要花多少錢?外貿(mào)獨(dú)立建站費(fèi)用包括哪些?

閱讀 4012·2021-09-09 11:54
Vultr機(jī)房測評 - Vultr加拿大多倫多Toronto機(jī)房綜合速度和線路去程回程測試

閱讀 1914·2021-08-18 10:24
重學(xué)前端學(xué)習(xí)筆記（二十六）--CSSOM

閱讀 1118·2019-08-30 11:02
實習(xí)轉(zhuǎn)正 | 秋招還沒開始，就拿到了騰訊、阿里的offer？我是如何做的！

閱讀 1832·2019-08-29 18:45
后端程序員寫前端用什么框架好

閱讀 1694·2019-08-29 16:33

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Python-爬蟲工程師-面試總結(jié)

相關(guān)文章

Python面試經(jīng)驗總結(jié)，面試一時爽，一直面試一直爽！

Python學(xué)到什么程度才可以去找工作？掌握這4點足夠了！

**記錄一下自己找“python爬蟲工程師實習(xí)生”崗位的經(jīng)歷（2018年9月11號）**

Python

Python爬蟲學(xué)習(xí)路線

發(fā)表評論

0條評論

antz

男|高級講師

TA的文章

畢業(yè)設(shè)計 - 題目：基于單片機(jī)的指紋識別考勤系統(tǒng) - 嵌入式物聯(lián)網(wǎng)

K210應(yīng)用5-使用中斷方式通過UART接收數(shù)據(jù)

基于STM32的ESP8266 WIFI與ONENET通信連接（2），云平臺以及手機(jī)APP數(shù)據(jù)顯示

外貿(mào)建站需要花多少錢?外貿(mào)獨(dú)立建站費(fèi)用包括哪些?

Vultr機(jī)房測評 - Vultr加拿大多倫多Toronto機(jī)房綜合速度和線路去程回程測試

重學(xué)前端學(xué)習(xí)筆記（二十六）--CSSOM

實習(xí)轉(zhuǎn)正 | 秋招還沒開始，就拿到了騰訊、阿里的offer？我是如何做的！

后端程序員寫前端用什么框架好

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Python-爬蟲工程師-面試總結(jié)

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！