成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

python拉勾數(shù)據(jù)職位分析

馬龍駒 / 2923人閱讀

摘要:簡介試著,做了一個拉勾網(wǎng)數(shù)據(jù)分析師職位的數(shù)據(jù)分析。數(shù)據(jù)透視表統(tǒng)計,繪圖??磥?,我們這些想做數(shù)據(jù)分析師的人,都無法逃離北上廣啊??偨Y(jié)對于數(shù)據(jù)分析崗,招聘公司主要位于南方,但是以北京公司最多。

  簡介:試著,做了一個拉勾網(wǎng)數(shù)據(jù)分析師職位的數(shù)據(jù)分析。
其實,雖然很想做數(shù)據(jù)分析師,但是是跨行,心里相當忐忑,做這個分析就相當于加深自己對數(shù)據(jù)分析這個行業(yè)的了解了。

思路

  大致思路

起始 數(shù)據(jù)來源

  本來是想自己寫個爬蟲的,可是學了好久,還是不能融會貫通,總會出一些bug,只能繼續(xù)學習,爭取早日修成爬神功。又想著,總不能還沒開始,就結(jié)束了這次實驗。最后無意中發(fā)現(xiàn)了一個爬蟲工具--八爪魚、、只需要點點點(其實,當時有種挫敗感)。不過,總算數(shù)據(jù)總算有了。

數(shù)據(jù)的采集

  數(shù)據(jù)的具體采集過程如下:

下載安裝八爪魚采集器。
創(chuàng)建任務(wù),選擇列表及詳情。
輸入任務(wù)名稱、備注。
輸入采集網(wǎng)址
設(shè)置詳情頁鏈接,也就是點進具體的詳情頁。
設(shè)置好翻頁。
點擊需要采集的數(shù)據(jù)信息。
開始采集。
數(shù)據(jù)導出為excel。
過程 數(shù)據(jù)的清洗與處理

  這里試著用了兩種工具,Excel + Python,也比較了一下二者的優(yōu)點。與前人所述基本一致,紙上得來終覺淺啊。

  想說一下字段的命名,如果用了Python進行處理的話,最好還是把字段命名為英文,或者說字母。可以簡化后期處理,會方便很多。

  當然,你如果全用Excel是用中文命名,也是沒有問題的。

  字段

Excel的處理過程 預防萬一

  所謂預防萬一,就是將Excel另存一份源數(shù)據(jù),以免后期發(fā)生不可預知錯誤。

清洗與處理 命名字段

處理salary列

  新建工作表,將salary字段復制過來。

清除所有格式。
數(shù)據(jù)-分列-固定符號-"-"
查找替換 k。這里說明下,清除格式后,無論查找大寫K還是小寫k,均可。
因為抓取的數(shù)據(jù)是一組區(qū)間值,無法直接使用,因此取薪資的中間值也就是平均值。使用函數(shù) "MEDIAN" ,它會返回一組數(shù)的中值,或者使用 "AVERAGE" 也可。得到的值如下:

再對這組值進行數(shù)據(jù)分析,數(shù)據(jù)-數(shù)據(jù)分析-描述統(tǒng)計,得到最大值,最小值,全距,再根據(jù)公式計算組數(shù),組距,進行數(shù)據(jù)分組,再根據(jù) " FREQUENCY "函數(shù)計算每組頻率。

  接下來,就可以繪制圖表了。

  ps:或者直接在第5步,采用數(shù)據(jù)分析工具中的直方圖,進行分析。

處理experience、city、education、property、scale列

  新建工作表,復制。

清除所有格式。
使用函數(shù) "SUBSTITUTE" 替換所有 "/",或者直接查找替換。
數(shù)據(jù)透視表統(tǒng)計,繪圖。

處理field列

  新建工作表,復制。

清除所有格式
查找替換"、",","為半角“,”。
分列。
  這樣,基本就處理完了。

數(shù)據(jù)展示 行業(yè)及職位數(shù)量

  從圖中可以看出,17個行業(yè)中,移動互聯(lián)網(wǎng)對數(shù)據(jù)人才的需求量是最大的,其次是金融和電子商務(wù),而生物服務(wù)、文化娛樂、旅游、分類信息、硬件等的需求量最少。我認為,這從一個側(cè)面反映了移動互聯(lián)網(wǎng)數(shù)據(jù)量的巨大,以及對人才的渴求。

城市與職位

  首先看一下,職位主要分布的區(qū)域:

  從圖中可以看到,招聘公司主要位于南方,東三省竟然沒有。我認為,這個時代,對數(shù)據(jù)的重視程度從某種程度上說明了發(fā)展的質(zhì)量,就這個樣本數(shù)據(jù)來說,從某種程度上反映了東三省的發(fā)展速度較慢,不如南方。

  再看一下,城市與職位:

  這里主要截取了前10個城市,毫無意外,北上廣赫然在列,杭州也很多,排在廣州前面??磥恚覀冞@些想做數(shù)據(jù)分析師的人,都無法逃離北上廣啊。嗯,你也可以去杭州,據(jù)在那兒生活了七八年的同學來說,他不想走了。

行業(yè)、城市與薪資

  前面數(shù)據(jù)處理得到了每個職位的平均薪資,這里進一步處理得到了每個行業(yè)在每個城市的平均薪資。下圖是招聘最多的幾個行業(yè)在每個城市的平均薪資。

  從圖中可以知道,整體上相對來說,廣州在這些行業(yè)中屬于較低的。北京、上海差距不是太大。

招聘公司融資階段

招聘不同職稱的數(shù)量

  這里借助python進行了統(tǒng)計:

python import pandas as pd data = pd.DataFrame(pd.read_csv(r"C:UserssunshineDesktop2017.8.20.csv",encoding = "gbk")) data.columns positionName = [] for i in range(len(data.position)): if "實習" in data.position[i]: positionName.append("實習") elif "助理" in data.position[i]: positionName.append("助理") elif "專員" in data.position[i]: positionName.append("專員") elif "主管" in data.position[i]: positionName.append("主管") elif "經(jīng)理" in data.position[i]: positionName.append("經(jīng)理") elif "工程師" in data.position[i]: positionName.append("工程師") elif "總監(jiān)" in data.position[i]: positionName.append("總監(jiān)") elif "科學家" in data.position[i]: positionName.append("科學家") elif "架構(gòu)" in data.position[i]: positionName.append("架構(gòu)師") else: positionName.append("其他") data["positionName1"] = positionName data["positionName1"].value_counts()

  這里沒有用matplotlib畫,借用了echarts。

招聘公司對個人能力的要求 招聘公司對應聘者的學歷要求

  從圖中我們很明顯可以得到,公司對應聘者的學歷要求,本科以上占了絕大部分,這說明,90%以上的公司對應聘者的學歷要求很高,我認為,這可能有以下原因:

分析行業(yè)對應聘者的知識水平要求還是很高的,因為數(shù)據(jù)分析師不但要涉及很多高等數(shù)學,統(tǒng)計學,概率論,線性代數(shù)等數(shù)學知識,還要涉及很多行業(yè)知識。
這個行業(yè)需要應對很多日新月異的信息,各種東西更新迭代非常快,因此對應聘者的自學能力提出了很高的要求。
招聘公司對應聘者經(jīng)驗的要求

  大部分公司招的都是1-5年的,1年之下和經(jīng)驗不限的很少,所以說,實習經(jīng)驗很重要,沒有實習經(jīng)歷,太難入行了。我淚奔。公司需要的都是老鳥啊。

招聘公司對應聘者工具掌握的要求

  這里使用了python進行了正則匹配,和詞云生成。

python import re import numpy as np import pandas as pd import matplotlib.pyplot as plt import jieba as jb from wordcloud import WordCloud #轉(zhuǎn)換數(shù)據(jù)格式 word_str = "".join(data["deion"]) #對文本進行分詞 word_split = jb.cut(word_str) #使用|分割結(jié)果并轉(zhuǎn)換格式 word_split1 = "| ".join(word_split) #設(shè)置要匹配的關(guān)鍵詞 pattern=re.compile("sql|mysql|posgresql|python|excel|spss|matlab|ppt|powerpoint|sas|[r]|hadoop|spark|hive|ga|java|perl|tableau|eviews|presto") #匹配所有文本字符 word_w=pattern.findall(word_split1) word_s = str(word_w) my_wordcloud = WordCloud().generate(word_s) plt.imshow(my_wordcloud) plt.axis("off") plt.show()

  有點丑...

  因此,換了個工具.....

  好看點了,無論哪張圖都說明,除了excel,如果,你懂R或者python,再加上SQL,和spss,喔,你是個香餑餑。

招聘公司對應聘者技能的要求

  可以看到,公司對應聘者的要求大部分在數(shù)據(jù)分析能力和產(chǎn)品、業(yè)務(wù)等方面??磥?,數(shù)據(jù)分析師最重要的還是懂業(yè)務(wù),這也是我想發(fā)展的方向。至于數(shù)據(jù)挖掘方向,對數(shù)學功底要求太高了,畢竟我不是科班出身。但是,我覺得平時在實驗室做的實驗,其實和業(yè)務(wù)是一個道理。只不過,是將實驗換成了產(chǎn)品。

總結(jié)

  對于數(shù)據(jù)分析崗,招聘公司主要位于南方,但是以北京公司最多。不需要融資,B輪和上市公司對于該崗位的需求較大。并且主要是移動互聯(lián)網(wǎng)行業(yè)的公司。企業(yè)對于應聘者的工具掌握多是Excel,Spss,Python,R,SQl等,如果你全會,那基本就是個香餑餑。在技能方面,企業(yè)比較看重數(shù)據(jù)分析,以及對業(yè)務(wù)、運營的理解。而對于應聘者而言,本科生學歷完全足夠了。就薪資而言,廣州多有行業(yè)較其他城市偏低,北京和上海在同等工作經(jīng)歷下,薪資要領(lǐng)先于其他城市。

  網(wǎng)易云課堂專欄課程:大數(shù)據(jù)分析必備利器《R語言數(shù)據(jù)分析必知必會》http://study.163.com/course/c...

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/41963.html

相關(guān)文章

  • 拉勾數(shù)據(jù)崗位和熱門編程語言現(xiàn)狀分析

    摘要:另外數(shù)學成為了一個關(guān)鍵詞,編程語言主要是等,運營也出現(xiàn)在詞云中說明數(shù)據(jù)分析師也需要有運營能力。 功能點 爬取數(shù)據(jù) 所有公司數(shù)據(jù),名稱簡寫,城市,行業(yè),職位數(shù)量,人數(shù)范圍,標簽,介紹,融資階段,平均工資 github2016年度最受歡迎編程語言相應年數(shù)薪水,城市,學歷要求,公司融資階段,公司行業(yè) 大數(shù)據(jù)行業(yè)五大崗位相應年數(shù)薪水,城市,學歷要求,公司融資階段,公司行業(yè),崗位要求 編程語...

    atinosun 評論0 收藏0
  • node爬取拉勾網(wǎng)數(shù)據(jù)并導出為excel文件

    摘要:前言之前斷斷續(xù)續(xù)學習了,今天就拿拉勾網(wǎng)練練手,順便通過數(shù)據(jù)了解了解最近的招聘行情哈方面算是萌新一個吧,希望可以和大家共同學習和進步。 前言 之前斷斷續(xù)續(xù)學習了node.js,今天就拿拉勾網(wǎng)練練手,順便通過數(shù)據(jù)了解了解最近的招聘行情哈!node方面算是萌新一個吧,希望可以和大家共同學習和進步。 一、概要 我們首先需要明確具體的需求: 可以通過node index 城市 職位來爬取相關(guān)信...

    dkzwm 評論0 收藏0
  • Pyhton爬蟲實戰(zhàn) - 抓取BOSS直聘職位描述 和 數(shù)據(jù)清洗

    摘要:然后準備再去抓下拉勾網(wǎng)的招聘數(shù)據(jù),這也是個相對優(yōu)秀的專業(yè)招聘網(wǎng)站了,數(shù)據(jù)也相當多,想當初找實習找正式工作,都是在這兩個上找的,其他的網(wǎng)站幾乎都沒看。 原文地址:http://www.jtahstu.com/blog/s... Pyhton爬蟲實戰(zhàn) - 抓取BOSS直聘職位描述 和 數(shù)據(jù)清洗 零、致謝 感謝BOSS直聘相對權(quán)威的招聘信息,使本人有了這次比較有意思的研究之旅。 由于爬蟲持續(xù)...

    zhkai 評論0 收藏0
  • Pyhton爬蟲實戰(zhàn) - 抓取BOSS直聘職位描述 和 數(shù)據(jù)清洗

    摘要:然后準備再去抓下拉勾網(wǎng)的招聘數(shù)據(jù),這也是個相對優(yōu)秀的專業(yè)招聘網(wǎng)站了,數(shù)據(jù)也相當多,想當初找實習找正式工作,都是在這兩個上找的,其他的網(wǎng)站幾乎都沒看。 原文地址:http://www.jtahstu.com/blog/s... Pyhton爬蟲實戰(zhàn) - 抓取BOSS直聘職位描述 和 數(shù)據(jù)清洗 零、致謝 感謝BOSS直聘相對權(quán)威的招聘信息,使本人有了這次比較有意思的研究之旅。 由于爬蟲持續(xù)...

    Ocean 評論0 收藏0
  • Python 爬蟲-模擬登錄知乎-爬取拉勾網(wǎng)職位信息

    摘要:本文代碼地址爬取豆瓣電影爬取拉勾網(wǎng)職位信息模擬登陸知乎為什么沒人給我點贊。職位名職位信息運行結(jié)果模擬登錄知乎通過開發(fā)者工具,獲取的數(shù)據(jù)。 我開通了公眾號【智能制造專欄】,以后技術(shù)類文章會發(fā)在專欄。用Python寫爬蟲是很方便的,最近看了xlzd.me的文章,他的文章寫的很到位,提供了很好的思路。因為他的文章部分代碼省略了。下面是基于他的文章的三個代碼片段:基于Python3,Pytho...

    joyvw 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<