Caffe神經(jīng)網(wǎng)絡(luò)solver及其配備詳細(xì)說(shuō)明

89542767 發(fā)布于2022-12-24 15:02 / 417人閱讀

　　文中關(guān)鍵給大家介紹了Caffe神經(jīng)網(wǎng)絡(luò)solver及其配備詳細(xì)說(shuō)明，感興趣的小伙伴可以參考借鑒一下，希望可以有一定的幫助，祝愿大家多多的發(fā)展，盡早漲薪

　　前言

　　solver算是caffe的最核心的關(guān)鍵，它融洽著全部建模運(yùn)行。caffe程序執(zhí)行必帶的另一個(gè)主要參數(shù)就是solver環(huán)境變量。運(yùn)行代碼一般為

　　#caffe train--solver=*_slover.prototxt

　　在DeepLearning中，通常lossfunction是非凸的，并沒(méi)有解析解，我們應(yīng)該依據(jù)優(yōu)化策略來(lái)求得。solver的關(guān)鍵作用是更替啟用非前（forward)優(yōu)化計(jì)算方法和時(shí)向（backward)優(yōu)化計(jì)算方法來(lái)刷新主要參數(shù)，進(jìn)而降到最低loss，實(shí)際上是一類(lèi)提升的優(yōu)化計(jì)算方法。

　　至目前版本，caffe帶來(lái)了6種優(yōu)化計(jì)算方法來(lái)求得最佳主要參數(shù)，在solver環(huán)境變量中，可設(shè)置type類(lèi)型來(lái)挑選。

　　StochasticGradientDescent(type:"SGD"),

　　AdaDelta(type:"AdaDelta"),

　　AdaptiveGradient(type:"AdaGrad"),

　　Adam(type:"Adam"),

　　Nesterov’sAcceleratedGradient(type:"Nesterov")and

　　RMSprop(type:"RMSProp")

　　具體每一種方式的講解，請(qǐng)看本系列下篇文章,文中重點(diǎn)詳細(xì)介紹solver環(huán)境變量的撰寫(xiě)。

　　Solver的步驟：

　　1.制定好必須改善的目標(biāo)，及其用以學(xué)習(xí)培訓(xùn)的練習(xí)網(wǎng)絡(luò)與用以鑒定的測(cè)試網(wǎng)絡(luò)。（依據(jù)啟用另一個(gè)環(huán)境變量prototxt去進(jìn)行）

　　2.依據(jù)forward和backward提升的進(jìn)行改善來(lái)跟主要參數(shù)。

　　3.定期進(jìn)行的點(diǎn)評(píng)測(cè)試網(wǎng)絡(luò)。（可設(shè)置幾回訓(xùn)練后，做一次檢測(cè)）

　　4.在提升環(huán)節(jié)中表明建模和solver的情況

　　在每次的循環(huán)迭代中，solver進(jìn)行了這兩步工作中：

　　1、調(diào)用forward算法進(jìn)行計(jì)算最后的導(dǎo)出值，及其相匹配的loss

　　2、調(diào)用backward算法進(jìn)行計(jì)算各層的梯度方向

　　3、依據(jù)采用的slover方法，運(yùn)用梯度方向開(kāi)展主要參數(shù)刷新

　　4、統(tǒng)計(jì)并儲(chǔ)存每一次提升的學(xué)習(xí)率、快照更新，及其相對(duì)應(yīng)的情況。

　　下面，我們首先來(lái)說(shuō)個(gè)案例：

　　net:"examples/mnist/lenet_train_test.prototxt"
　　test_iter:100
　　test_interval:500
　　base_lr:0.01
　　momentum:0.9
　　type:SGD
　　weight_decay:0.0005
　　lr_policy:"inv"
　　gamma:0.0001
　　power:0.75
　　display:100
　　max_iter:20000
　　snapshot:5000
　　snapshot_prefix:"examples/mnist/lenet"
　　solver_mode:CPU

　　接下來(lái)，我們對(duì)每一行進(jìn)行詳細(xì)解譯：

　　net:"examples/mnist/lenet_train_test.prototxt"

　　設(shè)置深度網(wǎng)絡(luò)模型。每一個(gè)模型就是一個(gè)net，需要在一個(gè)專(zhuān)門(mén)的配置文件中對(duì)net進(jìn)行配置，每個(gè)net由許多的layer所組成。每一個(gè)layer的具體配置方式可參考本系列文文章中的（2）-（5）。注意的是：文件的路徑要從caffe的根目錄開(kāi)始，其它的所有配置都是這樣。

　　訓(xùn)練測(cè)試模型

　　也可用train_net和test_net來(lái)對(duì)訓(xùn)練模型和測(cè)試模型分別設(shè)定。例如：

　　train_net:"examples/hdf5_classification/logreg_auto_train.prototxt"
　　test_net:"examples/hdf5_classification/logreg_auto_test.prototxt"

　　接下來(lái)第二行：

　　test_iter:100

　　這個(gè)要與test layer中的batch_size結(jié)合起來(lái)理解。mnist數(shù)據(jù)中測(cè)試樣本總數(shù)為10000，一次性執(zhí)行全部數(shù)據(jù)效率很低，因此我們將測(cè)試數(shù)據(jù)分成幾個(gè)批次來(lái)執(zhí)行，每個(gè)批次的數(shù)量就是batch_size。假設(shè)我們?cè)O(shè)置batch_size為100，則需要迭代100次才能將10000個(gè)數(shù)據(jù)全部執(zhí)行完。因此test_iter設(shè)置為100。執(zhí)行完一次全部數(shù)據(jù)，稱(chēng)之為一個(gè)epoch

　　test_interval:500

　　測(cè)試間隔。也就是每訓(xùn)練500次，才進(jìn)行一次測(cè)試。

　　base_lr:0.01
　　lr_policy:"inv"
　　gamma:0.0001
　　power:0.75

　　這四行可以放在一起理解，用于學(xué)習(xí)率的設(shè)置。只要是梯度下降法來(lái)求解優(yōu)化，都會(huì)有一個(gè)學(xué)習(xí)率，也叫步長(zhǎng)。base_lr用于設(shè)置基礎(chǔ)學(xué)習(xí)率，在迭代的過(guò)程中，可以對(duì)基礎(chǔ)學(xué)習(xí)率進(jìn)行調(diào)整。怎么樣進(jìn)行調(diào)整，就是調(diào)整的策略，由lr_policy來(lái)設(shè)置。

　　lr_policy可以設(shè)置為下面這些值，相應(yīng)的學(xué)習(xí)率的計(jì)算為：

　　-fixed:保持base_lr不變.

　　-step:如果設(shè)置為step,則還需要設(shè)置一個(gè)stepsize,返回base_lr*gamma^(floor(iter/stepsize)),其中iter表示當(dāng)前的迭代次數(shù)

　　-exp:返回base_lr*gamma^iter，iter為當(dāng)前迭代次數(shù)

　　-inv:如果設(shè)置為inv,還需要設(shè)置一個(gè)power,返回base_lr*(1+gamma*iter)^(-power)

　　-multistep:如果設(shè)置為multistep,則還需要設(shè)置一個(gè)stepvalue。這個(gè)參數(shù)和step很相似，step是均勻等間隔變化，而multistep則是根據(jù)stepvalue值變化

　　-poly:學(xué)習(xí)率進(jìn)行多項(xiàng)式誤差,返回base_lr(1-iter/max_iter)^(power)

　　-sigmoid:學(xué)習(xí)率進(jìn)行sigmod衰減，返回base_lr(1/(1+exp(-gamma*(iter-stepsize))))

　　multistep示例：

　　base_lr:0.01
　　momentum:0.9
　　weight_decay:0.0005
　　#The learning rate policy
　　lr_policy:"multistep"
　　gamma:0.9
　　stepvalue:5000
　　stepvalue:7000
　　stepvalue:8000
　　stepvalue:9000
　　stepvalue:9500

　　參數(shù)

　　接下來(lái)的參數(shù)：

　　momentum：0.9

　　上一次梯度更新的權(quán)重，具體可參看下一篇文章。

　　type:SGD

　　優(yōu)化算法選擇。這一行可以省掉，因?yàn)槟J(rèn)值就是SGD?？偣灿辛N方法可選擇，在本文的開(kāi)頭已介紹。

　　weight_decay:0.0005

　　權(quán)重衰減項(xiàng)，防止過(guò)擬合的一個(gè)參數(shù)。

　　display:100

　　每訓(xùn)練100次，在屏幕上顯示一次。如果設(shè)置為0，則不顯示。

　　max_iter:20000
　　max_iter:20000

　　最大迭代次數(shù)。這個(gè)數(shù)設(shè)置太小，會(huì)導(dǎo)致沒(méi)有收斂，精確度很低。設(shè)置太大，會(huì)導(dǎo)致震蕩，浪費(fèi)時(shí)間。

　　snpshot:5000
　　snapshot_prefix:"examples/mnist/lenet"

　　快照。將訓(xùn)練出來(lái)的model和solver狀態(tài)進(jìn)行保存，snapshot用于設(shè)置訓(xùn)練多少次后進(jìn)行保存，默認(rèn)為0，不保存。snapshot_prefix設(shè)置保存路徑。

　　還可以設(shè)置snapshot_diff，是否保存梯度值，默認(rèn)為false,不保存。

　　也可以設(shè)置snapshot_format，保存的類(lèi)型。有兩種選擇：HDF5和BINARYPROTO，默認(rèn)為BINARYPROTO

　　solver_mode:CPU

　　設(shè)置運(yùn)行模式。默認(rèn)為GPU,如果你沒(méi)有GPU,則需要改成CPU,否則會(huì)出錯(cuò)。

　　注意：以上的所有參數(shù)都是可選參數(shù)，都有默認(rèn)值。根據(jù)solver方法（type)的不同，還有一些其它的參數(shù)，在此不一一列舉。

　　綜上所述，這篇內(nèi)容就給大家介紹到這里了，希望可以給大家?guī)?lái)幫助。

云服務(wù)器 GPU云服務(wù)器詳細(xì)說(shuō)明安裝php詳細(xì)說(shuō)明 icp備案流程詳細(xì)說(shuō)明 cn.com域名詳細(xì)說(shuō)明

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/128771.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

89542767

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

pythontime控制模塊時(shí)間格式與結(jié)構(gòu)型時(shí)長(zhǎng)詳細(xì)說(shuō)明

閱讀 956·2023-01-14 11:38
OpenMV與JSON編碼問(wèn)題分析

閱讀 936·2023-01-14 11:04
python中的特性管理模式詳細(xì)說(shuō)明

閱讀 787·2023-01-14 10:48
Python運(yùn)用fastapi完成上傳圖片

閱讀 2157·2023-01-14 10:34
pythonopencv圖象高通濾波和低通濾波器的范例編碼

閱讀 1005·2023-01-14 10:24
Python根據(jù)ssh遠(yuǎn)程桌面連接Mysql數(shù)據(jù)庫(kù)操作

閱讀 895·2023-01-14 10:18
本文輕輕松松掌握Python中類(lèi)的繼承

閱讀 545·2023-01-14 10:09
python中wordcloud組裝方式總結(jié)

閱讀 622·2023-01-14 10:02

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專(zhuān)欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

Caffe神經(jīng)網(wǎng)絡(luò)solver及其配備詳細(xì)說(shuō)明

相關(guān)文章

caffe的python插口形成solver文件詳細(xì)說(shuō)明學(xué)習(xí)培訓(xùn)

caffe的python插口制作loss和accuracy曲線(xiàn)圖

caffe的python插口之手寫(xiě)數(shù)字識(shí)別mnist案例

發(fā)表評(píng)論

0條評(píng)論

89542767

男|高級(jí)講師

TA的文章

pythontime控制模塊時(shí)間格式與結(jié)構(gòu)型時(shí)長(zhǎng)詳細(xì)說(shuō)明

OpenMV與JSON編碼問(wèn)題分析

python中的特性管理模式詳細(xì)說(shuō)明

Python運(yùn)用fastapi完成上傳圖片

pythonopencv圖象高通濾波和低通濾波器的范例編碼

Python根據(jù)ssh遠(yuǎn)程桌面連接Mysql數(shù)據(jù)庫(kù)操作

本文輕輕松松掌握Python中類(lèi)的繼承

python中wordcloud組裝方式總結(jié)

最新活動(dòng)

資訊專(zhuān)欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

Caffe神經(jīng)網(wǎng)絡(luò)solver及其配備詳細(xì)說(shuō)明

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！