{eval=Array;=+count(Array);}
先確認(rèn)下自己是否對(duì)此感興趣,正感興趣就考慮學(xué)習(xí),不論是自學(xué)還是參加學(xué)習(xí),都務(wù)必要有堅(jiān)定的信念,當(dāng)然學(xué)習(xí)數(shù)據(jù)分析是需要一定的數(shù)學(xué)、統(tǒng)計(jì)基礎(chǔ),同時(shí)需要掌握一點(diǎn)數(shù)據(jù)分析的工具軟件,若有人帶你學(xué)習(xí)或指導(dǎo)你,將會(huì)事半功倍,我知道比較牛的數(shù)據(jù)分析專家是趙強(qiáng),舒立克商學(xué)院數(shù)據(jù)分析教授,有興趣可以了解下他,
完整的數(shù)據(jù)分析流程:
? 業(yè)務(wù)建模。
? 經(jīng)驗(yàn)分析。
? 數(shù)據(jù)準(zhǔn)備。
? 數(shù)據(jù)處理。
? 數(shù)據(jù)分析與展現(xiàn)。
? 專業(yè)報(bào)告。
? 持續(xù)驗(yàn)證與跟蹤。
1、 數(shù)據(jù)采集
了解數(shù)據(jù)采集的意義在于真正了解數(shù)據(jù)的原始面貌,包括數(shù)據(jù)產(chǎn)生的時(shí)間、條件、格式、內(nèi)容、長度、限制條件等。
2、數(shù)據(jù)存儲(chǔ)
在數(shù)據(jù)存儲(chǔ)階段,數(shù)據(jù)分析師需要了解數(shù)據(jù)存儲(chǔ)內(nèi)部的工作機(jī)制和流程,最核心的因素是在原始數(shù)據(jù)基礎(chǔ)上經(jīng)過哪些加工處理,最后得到了怎樣的數(shù)據(jù)。
3、數(shù)據(jù)提取
在數(shù)據(jù)提取階段,數(shù)據(jù)分析師首先需要具備數(shù)據(jù)提取能力。其次是理解業(yè)務(wù)需求的能力。
4、數(shù)據(jù)挖掘
在數(shù)據(jù)挖掘階段,數(shù)據(jù)分析師要掌握數(shù)據(jù)挖掘相關(guān)能力。一是數(shù)據(jù)挖掘、統(tǒng)計(jì)學(xué)、數(shù)學(xué)基本原理和常識(shí);二是熟練使用一門數(shù)據(jù)挖掘工具,Clementine、SAS或R都是可選項(xiàng),如果是程序出身也可以選擇編程實(shí)現(xiàn);三是需要了解常用的數(shù)據(jù)挖掘算法以及每種算法的應(yīng)用場景和優(yōu)劣差異點(diǎn)......
加米谷大數(shù)據(jù)開發(fā)培訓(xùn)9月0基礎(chǔ)班,預(yù)報(bào)名中...
相關(guān):
數(shù)據(jù)分析師的完整工作流程與知識(shí)結(jié)構(gòu)體系
https://www.toutiao.com/i6584961126356746760/
想要深入學(xué)習(xí)數(shù)據(jù)分析,第一步是要進(jìn)行Python實(shí)戰(zhàn),然后需要對(duì)業(yè)務(wù)進(jìn)行深入的理解,建立指標(biāo)體系和思路,因?yàn)槊撾x了業(yè)務(wù)的數(shù)據(jù)分析基本上就是瞎胡鬧。
這里我就不談業(yè)務(wù)了,先演示一下如何利用Python做一次真正的、完整的數(shù)據(jù)分析實(shí)操。
————————Python實(shí)操正文————————
比如說,我想要研究亞馬遜上Top100的細(xì)分品類——女式內(nèi)衣的銷售情況。(還有點(diǎn)不好意思)
分析分為三步:數(shù)據(jù)采集、數(shù)據(jù)清理、可視化分析
一、如何爬取內(nèi)衣數(shù)據(jù)Python爬數(shù)據(jù)很簡單,我個(gè)人總結(jié)大致就 3點(diǎn):請(qǐng)求數(shù)據(jù)、進(jìn)行數(shù)據(jù)處理、寫數(shù)據(jù)。
會(huì)有幾種可能:
會(huì)有幾種可能:
遇到這種頁面通過抓包或者簡單的在網(wǎng)站上審查請(qǐng)求,然后找的你想要的那部分?jǐn)?shù)據(jù),如果是js渲染的html,其實(shí)就是js拼寫的html,只要把其他無用的數(shù)據(jù)匹配掉用正則找到剩下想要的html文本就好了 。然后BS4解析。
open方法進(jìn)行文件打開 里面的參數(shù)進(jìn)行文件格式設(shè)置,讀寫文件、編碼格式操作
文件格式我用過的就是txt、csv 、xml 大部分文本格式都支持的。
a--是創(chuàng)建文件 每次寫都是重新創(chuàng)建w--是追加a--是讀數(shù)據(jù)encoding="utf-8"這句話 不加encoding= 在windows系統(tǒng)下會(huì)報(bào)編碼錯(cuò)誤,linux不會(huì)。
然后就是數(shù)據(jù)量太大,寫入到數(shù)據(jù)庫數(shù)據(jù)庫就用sqlite,記得引入模塊 import sqlite3,就是創(chuàng)建數(shù)據(jù)表。
好了,不啰嗦,開始爬數(shù)據(jù)。
1、爬取商品排名和詳情頁鏈接
需要爬取的具體字段:排名(Rank),商品名(item_name),商品詳情頁鏈接(item_link)、商品圖片鏈接(img_src)。
2、在商品詳情頁爬取更多商品信息
店家名、店家鏈接、商品名、價(jià)格
星級(jí)、評(píng)論標(biāo)簽
核心:
3、爬取評(píng)論
評(píng)論內(nèi)容,星級(jí)
核心:
4、爬取size和color數(shù)據(jù)
和第三步基本一樣,代碼基本一樣,主要在于要確認(rèn)每頁評(píng)論的size&color個(gè)數(shù)。
二、數(shù)據(jù)清洗和預(yù)處理1、讀取、清洗數(shù)據(jù)
從csv文件讀取100個(gè)商品的數(shù)據(jù),篩選出所需要的字段,進(jìn)行數(shù)據(jù)清洗。
這里注意,部分讀取的數(shù)據(jù),看似是數(shù)值,實(shí)際是字符,因此需要進(jìn)行類型轉(zhuǎn)換(如price拆分后,還需要轉(zhuǎn)為float型)
需要參與數(shù)值計(jì)算的NaN,使用平均值進(jìn)行替換。
2、以商家維度處理數(shù)據(jù)
獲取所需的數(shù)據(jù):商家的星級(jí)、評(píng)論數(shù)總和、評(píng)論數(shù)均值、最低價(jià)均值、最高價(jià)均值、價(jià)格均值、商品數(shù)量、占比。針對(duì)星級(jí)、評(píng)論數(shù)均值、價(jià)格均值、商品數(shù)量做標(biāo)準(zhǔn)化處理,并計(jì)算加權(quán)分。
三、分析:歪果情趣內(nèi)衣哪家強(qiáng)1、不同商家的星級(jí)排名
讓我看看LALAVAVA長什么樣。亞馬遜上的商品,看上去就是普通泳衣,米國人還是很保守的嘛~
但評(píng)分高真的就說明產(chǎn)品好嗎?不如來看看評(píng)論數(shù)吧。
②不同商家的平均評(píng)論數(shù)排名
那么,亞馬遜的星級(jí)評(píng)價(jià)難道就只受評(píng)論數(shù)的幾顆星比例影響嗎?我查閱了網(wǎng)上的一些資料,發(fā)現(xiàn)亞馬遜評(píng)價(jià)星級(jí)評(píng)定的三個(gè)重要因素:評(píng)論距離現(xiàn)在的時(shí)間,評(píng)論被買家投票采納數(shù),評(píng)論是否有verified purchase標(biāo)志(意指真實(shí)買家)。此外,評(píng)論的字符數(shù),被點(diǎn)擊次數(shù)等因素也可能會(huì)對(duì)評(píng)論星級(jí)有影響。
看來,亞馬遜對(duì)評(píng)論的監(jiān)控和管理是非常嚴(yán)格而復(fù)雜的!當(dāng)然,最重要的還是看看評(píng)論第一名的Garmol長什么樣:
比上邊的泳衣更點(diǎn)題了,大家說好才是真的好,very sexy!
2、不同商家的價(jià)格區(qū)間排名(按均價(jià))
最奢華的ELOVER看上去果然比較女神,縮略圖都比別家更用心。
那么,到底哪個(gè)商家的策略更靠譜,市場份額更大呢?
3、商家的商品數(shù)量餅
Avidlove的內(nèi)衣是酷酷風(fēng)的,我喜歡。
單一方面畢竟還是很難衡量哪家商家更優(yōu)秀,不如綜合多個(gè)指標(biāo)來分析吧~
4、不同商家的加權(quán)分排名
將星級(jí)、平均評(píng)論數(shù)、商品均價(jià)、商品數(shù)量進(jìn)行標(biāo)準(zhǔn)化處理后,因?yàn)椴缓门亩訖?quán)的比例,便將4項(xiàng)的歸一化結(jié)果x10后直接累加得到總分,并制作成條形堆積圖。
而每個(gè)商家的4項(xiàng)指標(biāo)的占比,則側(cè)面反映其自身的優(yōu)劣勢。
口碑最差的N-pearI,能搜到的商品也最少,不過圖很勁爆,emm……然而不是我的菜
粗略來看的話,想要排名靠前,口碑一定不能太差,至少要保持在平均水平及以上!
5、不同商家的星級(jí)/價(jià)格散點(diǎn)圖
用Python做了張散點(diǎn)圖,x軸為商家的商品均價(jià),y軸為商家的星級(jí),點(diǎn)大小為商品數(shù)量,商品數(shù)量越大,點(diǎn)越大,點(diǎn)顏色為評(píng)論均值,評(píng)論均值越大,顏色越深紅。
利用價(jià)格均值和星級(jí)均值,將圖切分為四個(gè)象限:
①左上象限:實(shí)惠好評(píng)的商家
②右上象限:有點(diǎn)貴,但一分錢一分貨的商家
③右下象限:貴,但質(zhì)量不咋地的商家
④左下象限:便宜沒好貨的商家
所以借助這張散點(diǎn)圖,挑商家買東西就容易多啦:
顧客可以根據(jù)自己的喜好挑選合適的商家,那么作為商家如何改進(jìn)自己呢?
6、詞頻分析
前面在爬取的過程中,同樣爬取了評(píng)論標(biāo)簽,通過對(duì)此進(jìn)行詞頻分析,可以發(fā)現(xiàn)顧客最關(guān)心的依次是:
評(píng)論標(biāo)簽的數(shù)量較少,進(jìn)一步對(duì)2.4w條評(píng)論進(jìn)行詞頻分析,并制作成詞云:
快夸我底圖選得好!
最直觀的,仍然是跟“是否合身”以及質(zhì)量或款式有關(guān)。那么我們就從顧客購買商品的Size&Color繼續(xù)分析
這里,Size&Color的詞頻數(shù)據(jù)存在幾點(diǎn)問題:1、數(shù)據(jù)量較少,僅有約6000條2、Size&Color無法較好的區(qū)分開,因此一起分析3、商家的命名規(guī)則不同,比如同樣是黑色款,有個(gè)商家會(huì)命名black,而有的可能是style1(所以一些奇怪的數(shù)字編號(hào)其實(shí)是商家的款式編號(hào))4、有些奇怪的字眼如trim可能是爬蟲時(shí)爬錯(cuò)了或者導(dǎo)出csv時(shí)的格式錯(cuò)亂
可以明顯看出:
Size方面:large、medium、small肯定均有涵蓋,但另外還有xlarge、xxlarge、xxxlarge,亞馬遜主要是歐美顧客,可能體型相對(duì)較大,所以商家應(yīng)該多研發(fā)以及備貨針對(duì)體型較大的顧客的商品。
Color方面:非常直觀:Black > red > blue > green > white > purple....所以黑色、紅色永遠(yuǎn)不會(huì)錯(cuò);綠色是出乎我意料的,商家也可以大膽嘗試。
Style方面:詞頻中出現(xiàn)trim、lace字眼,蕾絲最高?。?!
最后在分析了Top100的商品信息和2.4w條評(píng)論后,作為一篇正經(jīng)的python數(shù)據(jù)分析研究,我們來總結(jié)一下亞馬遜情趣內(nèi)衣產(chǎn)品和銷售策略:
1、一定要注意的競品
Garmol、ELOVER、Avidlove分別在口碑、定價(jià)、產(chǎn)品數(shù)量三個(gè)方向有其核心優(yōu)勢,是需要重點(diǎn)研究的競爭對(duì)手。
2、口碑很重要
3、定價(jià)策略
4、產(chǎn)品策略
5、拓展&思考:
——————一次完整的數(shù)據(jù)分析就結(jié)束了——————
這個(gè)的話,看你是學(xué)什么專業(yè)的,干的什么工作,結(jié)合工作來說,數(shù)據(jù)分析的話有點(diǎn)專業(yè)性較強(qiáng),沒有基礎(chǔ)的話,可能學(xué)習(xí)起來比較難,所以結(jié)合自己的專業(yè),工作等等。如果真的想要學(xué)習(xí)的話,多看看視頻,別人的教學(xué)視頻,或者在一些云課堂上面都有好多,我自己還是比較喜歡網(wǎng)易云課堂的,比較不錯(cuò),也學(xué)會(huì)了很多。祝你成功!
大家都知道我一直專注于數(shù)據(jù)分析領(lǐng)域,在知乎上面也發(fā)表了些數(shù)據(jù)分析方面的文章,帶動(dòng)了不少有這方面想法的小伙伴想進(jìn)入數(shù)據(jù)分析領(lǐng)域。
不少小伙伴會(huì)私信我,提出自己學(xué)習(xí)數(shù)據(jù)的一些想法和計(jì)劃,但其中有些同學(xué)的想法讓我感覺到大家在數(shù)據(jù)入門方面可能走入了一些歧途,典型的聊天一般是這樣的:
現(xiàn)在有不少數(shù)據(jù)方面的"小白",來自運(yùn)營、產(chǎn)品,大家學(xué)習(xí)數(shù)據(jù)的切入?yún)s選擇了學(xué)習(xí)類似Python這樣的編程語言。這樣的想法確實(shí)讓我感覺有必要發(fā)文一篇,以免更多的朋友南轅北轍、誤入歧途。
我一直認(rèn)為各行各業(yè)的同學(xué)都應(yīng)該具備一定的數(shù)據(jù)分析能力,哪怕你不是或者也不準(zhǔn)備做一名數(shù)據(jù)分析師。原因在于數(shù)據(jù)分析是一種思想,是一種高效且行之有效的認(rèn)識(shí)這個(gè)世界的能力。
即便你本人并不做數(shù)據(jù)分析師,一旦具備了這種思想和能力,也能夠讓你在自己的領(lǐng)域看的更高、更遠(yuǎn)、更透徹。而類似Python這樣的編程語言是一門工具,也僅僅是一門工具而已。即便掌握了這門工具,也并不代表你掌握了數(shù)據(jù)分析的思想和能力。
更何況,這樣的工具對(duì)于非IT領(lǐng)域的同學(xué)來說過于繁瑣,學(xué)習(xí)成本是非常高的。這也是為什么要選擇FineBI這樣的工具作為數(shù)據(jù)分析的工具,因?yàn)镕ineBI足夠簡單,上手夠快,并能夠支撐數(shù)據(jù)分析的一般需求,更重要的是我們的課程是要教給大家數(shù)據(jù)分析的思路和想法,工具學(xué)習(xí)成本越低越好。
(a.我曾見到過的一個(gè)數(shù)據(jù)科學(xué)家,只會(huì)用Sql+excel做模型,他幫助公司收入增長了300%,3個(gè)億。注意只會(huì)sql+excel,但是他的分析思路和高度是我所佩服的;
b.我見到過太多太多python,學(xué)到一半沒有實(shí)際應(yīng)用場景而放棄的,也見到過學(xué)會(huì)了python入門,但不知道如何運(yùn)用到工作因此浪費(fèi)時(shí)間的。這里并不是指python不好,而是我建議先入門,入門之后,再根據(jù)業(yè)務(wù)場景去學(xué)語言工具,會(huì)python肯定是數(shù)據(jù)分析師的主流,但并不是入門的好工具。)
所以,我給大家的建議是:首先,大家應(yīng)該將精力集中于數(shù)據(jù)分析思路的培養(yǎng)和訓(xùn)練上,多去看一些商業(yè)數(shù)據(jù)模型和數(shù)據(jù)分析案例方面的資料,結(jié)合自己的工作場景和特點(diǎn),形成自己的數(shù)據(jù)分析思路;
其次,學(xué)習(xí)一個(gè)上手最簡單的數(shù)據(jù)分析工具,利用已有的數(shù)據(jù)和自己的分析思路進(jìn)行分析,形成看板或者結(jié)論;最后,重點(diǎn)鍛煉一下自己演講和PPT的制作能力。
要知道,一個(gè)優(yōu)秀的數(shù)據(jù)分析結(jié)論,也需要有好的演講者說服他的聽眾去接受,也需要有清晰的PPT把整個(gè)思想展示給閱讀者。畢竟,在這個(gè)時(shí)代,酒香也怕巷子深。
為什么我會(huì)這么建議大家呢?因?yàn)槊考虑槎际怯谐杀镜?,而一旦有成本就意味著我們需要有收益?/strong>我們每一個(gè)人都不是萬能的,我們有自己的長處,也有自己的短板。我們?cè)趯W(xué)習(xí)時(shí),應(yīng)該結(jié)合自身的特點(diǎn)和情況,最快的從我們的付出中見到成效。
其實(shí),對(duì)于并不在數(shù)據(jù)分析領(lǐng)域的同學(xué)來說,也許絕大多數(shù)人都沒有辦法成為一名數(shù)據(jù)科學(xué)家,但卻更有可能成為自己領(lǐng)域的大牛:一名優(yōu)秀的運(yùn)營專家、產(chǎn)品經(jīng)理、HR、財(cái)務(wù)、銷售、咨詢顧問。讓數(shù)據(jù)分析成為你在自己職業(yè)發(fā)展中的一項(xiàng)助力,讓它更好的幫助到你本身的職業(yè)發(fā)展,也許才是學(xué)習(xí)數(shù)據(jù)分析的正確思路和定位。
最后,認(rèn)清自己的優(yōu)勢和劣勢,明確自己職業(yè)發(fā)展的方向,選擇最適合自己的道路,做一個(gè)最好的自己,這才是每一個(gè)人最正確的選擇。
各位,如果覺得自己并不是對(duì)數(shù)據(jù)很有興趣,只是覺得多一個(gè)就業(yè)方向,那我建議大家學(xué)英語會(huì)更實(shí)際一點(diǎn)。
0
回答0
回答0
回答0
回答0
回答0
回答0
回答0
回答0
回答0
回答