成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

數(shù)據(jù)科學(xué) 第 3 章 11 字符串處理

hlcfan / 1876人閱讀

摘要:本節(jié)是通過函數(shù),查看值包含了哪些字符串,有點像搜索關(guān)鍵詞主要的函數(shù)是長度包含字符書中用到的是通過查找關(guān)鍵詞,查看包含這些原料的菜譜有哪些。

本節(jié)是通過函數(shù),查看值包含了哪些字符串,有點像搜索關(guān)鍵詞
主要的函數(shù)是:
str.*()
str.len() 長度
str.contains() 包含**字符

書中用到的是通過查找關(guān)鍵詞,查看包含這些原料的菜譜有哪些。 結(jié)合現(xiàn)在的,我覺得可以在處理推廣數(shù)據(jù)時,通過設(shè)置好的參數(shù)來分析url中的用戶來源。

查看了word列的字符串長度,平均搜索詞的長度為8.8,75%是搜索詞在10個以內(nèi),最長的有95個字符

df.word.str.len().describe()

Out:
count    2324.000000
mean        8.767642
std         4.695302
min         0.000000
25%         6.000000
50%         8.000000
75%        10.000000
max        95.000000
Name: word, dtype: float64

查看字符大于50個的數(shù)據(jù),執(zhí)行代碼后只有2條數(shù)據(jù)。

df[df.word.str.len() > 50]

# 如果想查看字符串長度大于30的數(shù)據(jù)有多少條,可以用
df[df.word.str.len() > 30].count()

Out:
date       15
id         15
word       15
rank1      15
number1    15
url        15
dtype: int64
-- 查找是否包含某些字符

str.contains

#word列包含‘家’字的數(shù)據(jù)是什么
df[df.word.str.contains("家")]

還可以用input()的方法,來查找輸入的字符是否在word列中

keyw = input()
df[df.url.str.contains(keyw)

就這樣,下節(jié)學(xué)習(xí)時間格式的處理,然后第3章就結(jié)束了,拜拜。

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/44995.html

相關(guān)文章

  • ApacheCN 人工智能知識樹 v1.0

    摘要:貢獻(xiàn)者飛龍版本最近總是有人問我,把這些資料看完一遍要用多長時間,如果你一本書一本書看的話,的確要用很長時間。為了方便大家,我就把每本書的章節(jié)拆開,再按照知識點合并,手動整理了這個知識樹。 Special Sponsors showImg(https://segmentfault.com/img/remote/1460000018907426?w=1760&h=200); 貢獻(xiàn)者:飛龍版...

    劉厚水 評論0 收藏0
  • 數(shù)據(jù)科學(xué) 3 12 處理時間序列,小時、分

    摘要:時間序列,日期格式處理原以為本章是講怎么用處理時間格式,比如提取年月之類的。新增一列日期,不要時分新增兩列年,月,以便后續(xù)分析。這個方法太復(fù)雜,而且處理時間可能會更長,看下面的簡單方法新增月份年。 時間序列,日期格式處理 原以為本章是講怎么用python處理時間格式,比如提取年月之類的。 但本節(jié)寫的是時間格式已經(jīng)工整后的事,暫時不是我想學(xué)的,所以跳過,就沒有寫公式了。 下面的函數(shù)時之前...

    Atom 評論0 收藏0
  • 什么是 Python 編程語言?

    摘要:由設(shè)計,作為編程語言的繼承者,于年首次發(fā)布。表達(dá)式表達(dá)式是編程語言中的語法實體,可以對其進(jìn)行評估以確定其值。它是編程語言解釋和計算以產(chǎn)生值的常量變量函數(shù)和運算符的組合。它在年年年和年被評為年度編程語言,是唯一四次獲得該獎項的語言。 ...

    1treeS 評論0 收藏0
  • 數(shù)據(jù)科學(xué) 5 主成分分析(降維)、相關(guān)性

    摘要:主成分分析就是降維,通過線性組合,把多個原始變量合并成若干個主成分,這樣每個主成分都變成原始變量的線性組合。相關(guān)系數(shù)系數(shù)為為為。從結(jié)果看,這個數(shù)據(jù)可能不太適合用來分析,因為降到維后的代筆性不足。 這兩天用學(xué)了主成分分析,用的是PCA。主成分分析就是降維,通過線性組合,把多個原始變量合并成若干個主成分,這樣每個主成分都變成原始變量的線性組合。所以你想看具體哪個特征對結(jié)果的影響大,通過PC...

    ixlei 評論0 收藏0
  • 數(shù)據(jù)科學(xué) 5 建模過程 與 決策樹模型

    摘要:一周沒寫文了,之前干什么去了呢本周前半部分卡在畫圖了,然后的時間在處理數(shù)據(jù),處理數(shù)據(jù)是我目前在畫圖和機器學(xué)習(xí)上一個重大的障礙,處理各種報錯各種不適合,等我學(xué)會了和你再來堵我呀 一周沒寫文了,之前干什么去了呢?本周前半部分卡在畫圖了,然后1/3的時間在處理數(shù)據(jù),處理數(shù)據(jù)是我目前在畫圖和機器學(xué)習(xí)上一個重大的障礙,python處理各種報錯各種不適合,等我學(xué)會了kettle和spark你再來堵...

    lowett 評論0 收藏0

發(fā)表評論

0條評論

hlcfan

|高級講師

TA的文章

閱讀更多
最新活動
閱讀需要支付1元查看
<