成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

Python 和 R 數(shù)據(jù)分析/挖掘工具互查

array_huang / 3499人閱讀

摘要:寫在前面在此總結(jié)一些在數(shù)據(jù)分析挖掘中可能用到的功能,方便大家索引或者從一種語言遷移到另一種。概率圖模型文本基本操作類別英中中文分詞未知主題模型類別未知未知未知值得留意的是的新第三方模塊,與其他分析可視化挖掘報表工具的交互類別實際是的服務(wù)包

寫在前面

在此總結(jié)一些在數(shù)據(jù)分析/挖掘中可能用到的功能,方便大家索引或者從一種語言遷移到另一種。當(dāng)然,這篇博客還會隨時更新(不會另起一篇,為了方便大家索引),請大家如果有需要收藏到書簽中。

如果大家還知道哪些常用的命令,也可以在評論中回復(fù)我。我可以添加進(jìn)來,方便更多地人更方便的檢索。也希望大家可以轉(zhuǎn)載。

如果大家已經(jīng)熟悉python和R的模塊/包載入方式,那下面的表查找起來相對方便。python在下表中以模塊.的方式引用,部分模塊并非原生模塊,請使用

pip install *

安裝;同理,為了方便索引,R中也以::表示了函數(shù)以及函數(shù)所在包的名字,如果不含::表示為R的默認(rèn)包中就有,如含::,請使用

install.packages("*")

安裝。

連接器與io 數(shù)據(jù)庫
類別 Python R
MySQL mysql-connector-python(官方) RMySQL
Oracle cx_Oracle ROracle
Redis redis rredis
MongoDB pymongo RMongo, rmongodb
neo4j py2neo RNeo4j
Cassandra cassandra-driver RJDBC
ODBC pyodbc RODBC
JDBC 未知[Jython Only] RJDBC
IO類
類別 Python R
excel xlsxWriter, pandas.(from/to)_excel, openpyxl openxlsx::read.xlsx(2), xlsx::read.xlsx(2)
csv csv.writer read.csv(2), read.table
json json jsonlite
圖片 PIL jpeg, png, tiff, bmp
統(tǒng)計類 描述性統(tǒng)計
類別 Python R
描述性統(tǒng)計匯總 scipy.stats.descirbe summary
均值 scipy.stats.gmean(幾何平均數(shù)), scipy.stats.hmean(調(diào)和平均數(shù)), numpy.mean, numpy.nanmean, pandas.Series.mean mean
中位數(shù) numpy.median, numpy.nanmediam, pandas.Series.median median
眾數(shù) scipy.stats.mode, pandas.Series.mode 未知
分位數(shù) numpy.percentile, numpy.nanpercentile, pandas.Series.quantile quantile
經(jīng)驗累積函數(shù)(ECDF) statsmodels.tools.ECDF ecdf
標(biāo)準(zhǔn)差 scipy.stats.std, scipy.stats.nanstd, numpy.std, pandas.Series.std sd
方差 numpy.var, pandas.Series.var var
變異系數(shù) scipy.stats.variation 未知
協(xié)方差 numpy.cov, pandas.Series.cov cov
(Pearson)相關(guān)系數(shù) scipy.stats.pearsonr, numpy.corrcoef, pandas.Series.corr cor
峰度 scipy.stats.kurtosis, pandas.Series.kurt e1071::kurtosis
偏度 scipy.stats.skew, pandas.Series.skew e1071::skewness
直方圖 numpy.histogram, numpy.histogram2d, numpy.histogramdd 未知
回歸(包括統(tǒng)計和機(jī)器學(xué)習(xí))
類別 Python R
普通最小二乘法回歸(ols) statsmodels.ols, sklearn.linear_model.LinearRegression lm,
廣義線性回歸(gls) statsmodels.gls nlme::gls, MASS::gls
分位數(shù)回歸(Quantile Regress) statsmodels.QuantReg quantreg::rq
嶺回歸 sklearn.linear_model.Ridge MASS::lm.ridge, ridge::linearRidge
LASSO sklearn.linear_model.Lasso lars::lars
最小角回歸 sklearn.linear_modle.LassoLars lars::lars
穩(wěn)健回歸 statsmodels.RLM MASS::rlm
假設(shè)檢驗
類別 Python R
t檢驗 statsmodels.stats.ttest_ind, statsmodels.stats.ttost_ind, statsmodels.stats.ttost.paired; scipy.stats.ttest_1samp, scipy.stats.ttest_ind, scipy.stats.ttest_ind_from_stats, scipy.stats.ttest_rel t.test
ks檢驗(檢驗分布) scipy.stats.kstest, scipy.stats.kstest_2samp ks.test
wilcoxon(非參檢驗,差異檢驗) scipy.stats.wilcoxon, scipy.stats.mannwhitneyu wilcox.test
Shapiro-Wilk正態(tài)性檢驗 scipy.stats.shapiro shapiro.test
Pearson相關(guān)系數(shù)檢驗 scipy.stats.pearsonr cor.test
時間序列
類別 Python R
AR statsmodels.ar_model.AR ar
ARIMA statsmodels.arima_model.arima arima
VAR statsmodels.var_model.var 未知

python還可參見PyFlux.

生存分析
類別 Python R
PH回歸 statsmodels.formula.api.phreg 未知

專門分析的模塊:
Python: Lifelines

機(jī)器學(xué)習(xí)類 回歸

參見統(tǒng)計類

分類器 LDA、QDA
類別 Python R
LDA sklearn.discriminant_analysis.LinearDiscriminantAnalysis MASS::lda
QDA sklearn.discriminant_analysis.QuadraticDiscriminantAnalysis MASS::qda
SVM(支持向量機(jī))
類別 Python R
支持向量分類器(SVC) sklearn.svm.SVC e1071::svm
非支持向量分類器(nonSVC) sklearn.svm.NuSVC 未知
線性支持向量分類器(Lenear SVC) sklearn.svm.LinearSVC 未知
基于臨近
類別 Python R
k-臨近分類器 sklearn.neighbors.KNeighborsClassifier 未知
半徑臨近分類器 sklearn.neighbors.RadiusNeighborsClassifier 未知
臨近重心分類器(Nearest Centroid Classifier) sklearn.neighbors.NearestCentroid 未知
貝葉斯
類別 Python R
樸素貝葉斯 sklearn.naive_bayes.GaussianNB e1071::naiveBayes
多維貝葉斯(Multinomial Naive Bayes) sklearn.naive_bayes.MultinomialNB 未知
伯努利貝葉斯(Bernoulli Naive Bayes) sklearn.naive_bayes.BernoulliNB 未知
決策樹
類別 Python R
決策樹分類器 sklearn.tree.DecisionTreeClassifier tree::tree, party::ctree
決策樹回歸器 sklearn.tree.DecisionTreeRegressor tree::tree, party::tree
Assemble方法
類別 子類別 Python R
Bagging 隨機(jī)森林分類器 sklearn.ensemble.RandomForestClassifier randomForest::randomForest, party::cforest
Bagging 隨機(jī)森林回歸器 sklearn.ensemble.RandomForestRegressor randomForest::randomForest, party::cforest
Boosting Gradient Boosting xgboost模塊 xgboost
Boosting AdaBoost sklearn.ensemble.AdaBoostClassifier adabagfastAdaboost、ada
Stacking 未知 未知 未知
聚類
類別 Python R
kmeans scipy.cluster.kmeans.kmeans kmeans::kmeans
分層聚類 scipy.cluster.hierarchy.fcluster (stats::)hclust
包聚類(Bagged Cluster) 未知 e1071::bclust
DBSCAN sklearn.cluster.DBSCAN dbscan::dbsan
Birch sklearn.cluster.Birch 未知
K-Medoids聚類 pyclust.KMedoids(可靠性未知) cluster.pam
關(guān)聯(lián)規(guī)則
類別 Python R
apriori算法 apriori(可靠性未知,不支持py3), PyFIM(可靠性未知,不可用pip安裝) arules::apriori
FP-Growth算法 fp-growth(可靠性未知,不支持py3), PyFIM(可靠性未知,不可用pip安裝) 未知
神經(jīng)網(wǎng)絡(luò)
類別 Python R
神經(jīng)網(wǎng)絡(luò) neurolab.net, keras.* nnet::nnet, nueralnet::nueralnet
深度學(xué)習(xí) keras.* 不可靠包居多以及未知

當(dāng)然,theano模塊值得一提,但本質(zhì)theano包的設(shè)計并非在神經(jīng)網(wǎng)絡(luò),所以不歸于此類。

概率圖模型

python: PyMC3

文本、NLP 基本操作
類別 Python R
tokenize nltk.tokenize(英), jieba.tokenize(中) tau::tokenize
stem nltk.stem RTextTools::wordStem, SnowballC::wordStem
stopwords stop_words.get_stop_words tm::stopwords, qdap::stopwords
中文分詞 jieba.cut, smallseg, Yaha, finalseg, genius jiebaR
TFIDF gensim.models.TfidfModel 未知
主題模型
類別 Python R
LDA lda.LDA, gensim.models.ldamodel.LdaModel topicmodels::LDA
LSI gensim.models.lsiModel.LsiModel 未知
RP gensim.models.rpmodel.RpModel 未知
HDP gensim.models.hdpmodel.HdpModel 未知

值得留意的是python的新第三方模塊,spaCy

與其他分析/可視化/挖掘/報表工具的交互
類別 Python R
weka python-weka-wrapper RWeka
Tableau tableausdk Rserve(實際是R的服務(wù)包)

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/37902.html

相關(guān)文章

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<