成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

隱私與機(jī)器學(xué)習(xí),二者可以兼得嗎?

Michael_Ding / 2092人閱讀

摘要:摘要隱私數(shù)據(jù)與機(jī)器學(xué)習(xí)看似矛盾,其實(shí)不然。在每個(gè)分區(qū)上訓(xùn)練機(jī)器學(xué)習(xí)模型,將其稱為教師模型。差分隱私能夠很好地與機(jī)器學(xué)習(xí)的任務(wù)相一致,比如在學(xué)習(xí)過程中,記住像病例這樣的特殊訓(xùn)練實(shí)例是侵犯隱私的行為,也是一種過擬合現(xiàn)象,降低了模型泛化能力。

摘要: 隱私數(shù)據(jù)與機(jī)器學(xué)習(xí)看似矛盾,其實(shí)不然。如何有效保護(hù)機(jī)器學(xué)習(xí)訓(xùn)練中的隱私數(shù)據(jù)?谷歌專家給出了答案——PATE框架,就算你不太懂隱私保護(hù)的知識(shí),也可以通過PATE框架來保護(hù)機(jī)器學(xué)習(xí)里的訓(xùn)練數(shù)據(jù)。

最近關(guān)于互聯(lián)網(wǎng)隱私引發(fā)大眾的關(guān)注于討論,前有Facebook“數(shù)據(jù)門”,小扎不得不換下常穿的灰色短袖和牛仔裝,換上深藍(lán)色西裝參加國會(huì)聽證;后有百度總裁李彥宏稱中國用戶愿用隱私方便和效率引發(fā)網(wǎng)友強(qiáng)烈反感,網(wǎng)友評論說,犧牲隱私不一定換來效率,還可能換來死亡,比如搜索到莆田醫(yī)院,還可能換來經(jīng)濟(jì)損失,比如大數(shù)據(jù)殺熟等等;近來有知乎強(qiáng)制隱私搜集條款,引發(fā)部分用戶卸載APP,國內(nèi)很多APP若不同意給予相關(guān)權(quán)限,則無法正常使用,這真是陷入兩難境地。為什么現(xiàn)在很多應(yīng)用會(huì)收集數(shù)據(jù)呢,《未來簡史》這本書中給了答案——未來的世界數(shù)據(jù)為王,人類可能只是放大版的螞蟻,用于產(chǎn)生數(shù)據(jù)。有了數(shù)據(jù)后,加上合適的算法可以完成很多事情,這些技術(shù)均與機(jī)器學(xué)習(xí)、深度學(xué)習(xí)以及數(shù)據(jù)科學(xué)相關(guān)。人們擔(dān)心自己的數(shù)據(jù)被收集后會(huì)被泄露或者是被不正當(dāng)使用,因此,如何將隱私數(shù)據(jù)很好地保護(hù)起來是公司需要考慮的主要問題之一。本文將分析隱私與機(jī)器學(xué)習(xí)二者的關(guān)系,并設(shè)計(jì)了一種PATE框架,能夠很好地避免被動(dòng)地泄露用戶隱私數(shù)據(jù),下面帶大家一起看看吧。

在許多機(jī)器學(xué)習(xí)應(yīng)用中,比如用于醫(yī)學(xué)診斷的機(jī)器學(xué)習(xí),希望有一種算法在不存儲(chǔ)用戶敏感信息(比如個(gè)別患者的特定病史)的情況下,就可以完成相應(yīng)的任務(wù)。差分隱私(Differential privacy)是一種被廣泛認(rèn)可的隱私保護(hù)模型,它通過對數(shù)據(jù)添加干擾噪聲的方式保護(hù)鎖發(fā)布數(shù)據(jù)中潛在用戶的隱私信息,從而達(dá)到即便攻擊者已經(jīng)掌握了除某一條信息以外的其它信息,仍然無法推測出這條信息。利用差分隱私,可以設(shè)計(jì)出合適的機(jī)器學(xué)習(xí)算法來負(fù)責(zé)任地在隱私數(shù)據(jù)上訓(xùn)練模型。小組(Martín Abadi、 úlfar Erlingsson等人)一系列的工作都是圍繞差分隱私如何使得機(jī)器學(xué)習(xí)研究人員更容易地為隱私保護(hù)做出貢獻(xiàn),本文將闡述如如何讓隱私和機(jī)器學(xué)習(xí)之間進(jìn)行愉快的協(xié)同作用。
小組最新的工作是PATE算法(Private Aggregation of Teacher Ensembles,PATE),發(fā)表在2018年ICLR上。其中一個(gè)重要的貢獻(xiàn)是,知道如何訓(xùn)練有監(jiān)督機(jī)器學(xué)習(xí)模型的研究人員都將有助于研究用于機(jī)器學(xué)習(xí)的差分隱私。PATE框架通過仔細(xì)協(xié)調(diào)幾個(gè)不同機(jī)器學(xué)習(xí)模型的活動(dòng)來實(shí)現(xiàn)隱私學(xué)習(xí),只要遵循PATE框架指定程序,生成的模型就會(huì)有隱私保護(hù)。

為什么需要隱私機(jī)器學(xué)習(xí)算法?

機(jī)器學(xué)習(xí)算法的工作方式通過大量數(shù)據(jù)并更新其參數(shù)來學(xué)習(xí)數(shù)據(jù)中的關(guān)系。理想情況下,希望這些機(jī)器學(xué)習(xí)模型的學(xué)習(xí)到一般模型(比如“吸煙患者更容易患心臟病”),而不是訓(xùn)練特定實(shí)例(比如“Jane Smith患有心臟病”)。不幸的是,機(jī)器學(xué)習(xí)算法沒有學(xué)會(huì)默認(rèn)地忽視這些細(xì)節(jié),如果想用機(jī)器學(xué)習(xí)來解決某個(gè)重要的任務(wù),比如癌癥診斷模型,當(dāng)發(fā)布機(jī)器學(xué)習(xí)模型時(shí)(比如開源癌癥診斷模型),可能無意中透露訓(xùn)練集的相關(guān)信息,惡意攻擊者可能從發(fā)布的模型獲得關(guān)于Jane Smith的私密信息,這就是差分隱私應(yīng)用的地方。

如何定義和保護(hù)隱私?

科學(xué)家在分析數(shù)據(jù)時(shí)提出了很多方法來提供隱私保護(hù),比較流行的做法是在分析數(shù)據(jù)之前,刪除私人細(xì)節(jié)或隨機(jī)值替代等。一般將電話號(hào)碼和郵編等細(xì)節(jié)匿名處理,然而匿名數(shù)據(jù)并不總是足以滿足要求,當(dāng)攻擊者獲得關(guān)于數(shù)據(jù)集中表示個(gè)體的輔助信息時(shí),這種匿名操作提供的隱私性就會(huì)大大降低。因此,定義和保護(hù)隱私是困難的,很難估計(jì)出攻擊者能夠獲得的信息范圍。
差分隱私是用于隱私保護(hù)的模型,其基本思想是隨機(jī)化部分機(jī)制的行為以提供隱私,將隨機(jī)性引入到學(xué)習(xí)算法中的直覺是很難從訓(xùn)練好的模型中根據(jù)訓(xùn)練數(shù)據(jù)辨別出隱私行為。
本文使用的差分隱私版本是要求訓(xùn)練集改變一個(gè)例子時(shí)學(xué)習(xí)到的任何特定參數(shù)的概率大致相同。這樣做的原因是,如果單個(gè)病人(Jane Smith)的數(shù)據(jù)不影響模型學(xué)習(xí)的結(jié)果,那么該病人的數(shù)據(jù)就不會(huì)被記錄,其隱私受到保護(hù)。本文將這種概率稱為隱私預(yù)算(privacy budget),較小的隱私預(yù)算對應(yīng)更強(qiáng)的隱私保護(hù)。

如上圖所示,當(dāng)攻擊者不能由基于三個(gè)用戶數(shù)據(jù)訓(xùn)練的算法從兩個(gè)用戶的數(shù)據(jù)中區(qū)分隨機(jī)算法產(chǎn)生的答案時(shí),則實(shí)現(xiàn)了差分隱私。
PATE背后的直覺是什么?

PATE方法為機(jī)器學(xué)習(xí)提供查分隱私是基于一個(gè)簡單的直覺——如果兩個(gè)不同的分類器分別在兩個(gè)沒有共同的訓(xùn)練實(shí)例數(shù)據(jù)集上訓(xùn)練,并對一個(gè)新的輸入實(shí)有相同輸出時(shí),那么做出的決定沒有透露任何單個(gè)訓(xùn)練實(shí)例的信息。由于每個(gè)模型所預(yù)測的類別可能會(huì)泄露其訓(xùn)練數(shù)據(jù)中包含的一些私人信息,所以不能多帶帶發(fā)布每個(gè)模型的類別輸出。比如,假設(shè)Jane Smith的數(shù)據(jù)只對兩個(gè)模型中的一個(gè)模型的訓(xùn)練數(shù)據(jù)作出貢獻(xiàn),且該模型預(yù)測與Jane Smith記錄數(shù)據(jù)非常相似的患者為患癌,而另外一個(gè)模型預(yù)測結(jié)果則相反,這種情況則可以透露出Jane Smith的私人信息。這個(gè)例子也說明了為什么對算法添加隨機(jī)性是確保它提供任何有意義的隱私保護(hù)的必要條件。
PATE如何工作?
在PATE中,首先在數(shù)據(jù)子集中分離出私有數(shù)據(jù)集,如下圖所示。如果Jane Smith記錄在私有數(shù)據(jù)集中,那么它只在一個(gè)分區(qū)中存在。在每個(gè)分區(qū)上訓(xùn)練機(jī)器學(xué)習(xí)模型,將其稱為教師模型(teacher model)。教師模型的訓(xùn)練方式是沒有約束的,這也是PATE的主要優(yōu)點(diǎn)之一。所有的教師解決相同的機(jī)器學(xué)習(xí)任務(wù),但它們都是獨(dú)立訓(xùn)練的。即,只有一位教師分析了Jane Smith記錄的數(shù)據(jù)。

如何使用這一組獨(dú)立訓(xùn)練的教師模型來保證隱私呢?在PATE中,聚合所有教師預(yù)測并形成共識(shí)時(shí)加入噪聲。統(tǒng)計(jì)每個(gè)類別投票的教師數(shù)量,然后添加拉普拉斯或高斯分布的隨機(jī)噪聲來擾亂統(tǒng)計(jì)數(shù)據(jù)。當(dāng)兩個(gè)輸出類別的票數(shù)相同時(shí),隨機(jī)選取其中一個(gè)。另外,如果大多數(shù)教師的輸出類別指向同一個(gè)類別,加入噪聲并不會(huì)改變該類別獲得最多選票。因此,引入拉普拉斯等噪聲,把票數(shù)的統(tǒng)計(jì)情況打亂,從而保護(hù)隱私

以分兩類的醫(yī)學(xué)診斷任務(wù)為例說明聚合過程。如果Jane Smith得了癌癥,下面分析聚合機(jī)制的輸出結(jié)果。下圖中的紅色模型是唯一一個(gè)在Jane Smith數(shù)據(jù)上訓(xùn)練的教師模型,因此能夠?qū)㈩愃朴贘ane的記錄數(shù)據(jù)預(yù)測為癌癥患者。從圖中可以看到,有兩位教師投票是“癌癥”,剩余的兩位教師投票是“健康”。在投票計(jì)數(shù)中添加隨機(jī)噪聲阻止聚合結(jié)果反映任何個(gè)別教師的投票以保護(hù)隱私。

該框架存在兩個(gè)限制:首先,由聚合機(jī)制做出的每個(gè)預(yù)測增加了總的隱私預(yù)算;其次,不能開源發(fā)布教師模型的集合,否則,攻擊者可以檢查公布的模型參數(shù),以了解到訓(xùn)練使用的私人數(shù)據(jù)。因此,創(chuàng)建學(xué)生模型(student model)。
學(xué)生模型通過將教師集合獲得的知識(shí)以隱私保護(hù)的方式進(jìn)行訓(xùn)練。學(xué)生模型從一組未標(biāo)記的公共數(shù)據(jù)中選擇輸入數(shù)據(jù),并將這些輸入提交給教師模型以獲得標(biāo)簽,之后學(xué)生模型使用標(biāo)記過的數(shù)據(jù)來訓(xùn)練模型。

PATE使得隱私與學(xué)習(xí)協(xié)同作用

隱私保護(hù)和由聚合機(jī)制預(yù)測標(biāo)簽的正確性都源于教師之間達(dá)成的共識(shí)。當(dāng)大多數(shù)教師投票某一類別時(shí),增加噪聲并不會(huì)改變投票最多的類別結(jié)果,這表明聚合機(jī)制有非常強(qiáng)的隱私保證。
差分隱私能夠很好地與機(jī)器學(xué)習(xí)的任務(wù)相一致,比如在學(xué)習(xí)過程中,記住像Jane Smith病例這樣的特殊訓(xùn)練實(shí)例是侵犯隱私的行為,也是一種過擬合現(xiàn)象,降低了模型泛化能力。
這一過程促使我們聚合機(jī)制進(jìn)行改進(jìn),使其具有選擇性:教師只對學(xué)生提出的部分問題作出回應(yīng)。當(dāng)教師提問時(shí),首先檢查教師之間的共識(shí)度是否足夠高,若投票數(shù)大于設(shè)定的閾值,則接受學(xué)生的詢問,否則拒絕。閾值的設(shè)定是隨機(jī)的,以便在選擇過程中提供隱私性。下圖表明了該過程:

在實(shí)驗(yàn)中,隱私預(yù)算主要花費(fèi)在兩個(gè)方面:選擇和回答查詢。然而教師之間具有高度一致性,因此選擇回答查詢的預(yù)算十分小。下圖展示了不同查詢問題函數(shù)時(shí)性能的提升情況,分別為原始機(jī)制(Simple GNMax)、優(yōu)化后機(jī)制(Confident GNMax),當(dāng)使用數(shù)據(jù)依賴(data-dep)分析時(shí),使用時(shí)刻會(huì)計(jì)(moments accountant)和RDP(R"enyi Differential Privacy)。
機(jī)器學(xué)習(xí)研究者如何使用PATE改進(jìn)模型?

主要影響方法提供的隱私保護(hù)的強(qiáng)度有兩個(gè):

1.教師之間的共識(shí):共識(shí)越強(qiáng)烈,輸出相應(yīng)標(biāo)簽所花費(fèi)的隱私預(yù)算也越少。
2.學(xué)生詢問的數(shù)量:學(xué)生詢問標(biāo)簽時(shí),教師產(chǎn)生標(biāo)簽花費(fèi)的預(yù)算會(huì)被添加到總的隱私成本中,盡可能少地對教師進(jìn)行訓(xùn)練,增強(qiáng)提供的隱私保護(hù)。
加強(qiáng)教師共識(shí),需要在小量數(shù)據(jù)集上訓(xùn)練一大批教師模型,提高這些模型的準(zhǔn)確性和泛化能力將有助于提升共識(shí)。
PATE框架已經(jīng)開源,并且可在TensorFlow模型庫中調(diào)用,使用以下代碼克隆相關(guān)程序并設(shè)置變量:

cd
git clone https://github.com/tensorflow/models
cd models
export PYTHONPATH=$(pwd):$PYTHONPATH
cd research/differential_privacy/multiple_teachers

第一步是訓(xùn)練教師模型,以下演示的是在MNIST手寫體數(shù)據(jù)集上訓(xùn)練250位教師模型:

python train_teachers.py --nb_teachers=250 --teacher_id=0 --dataset=mnist
python train_teachers.py --nb_teachers=250 --teacher_id=1 --dataset=mnist
...
python train_teachers.py --nb_teachers=250 --teacher_id=248 --dataset=mnist
python train_teachers.py --nb_teachers=250 --teacher_id=249 --dataset=mnist

訓(xùn)練好后,加載這些教師模型,并應(yīng)用聚合機(jī)制來監(jiān)督學(xué)生模型的訓(xùn)練:

python train_student.py --nb_teachers=250 --dataset=mnist --stdnt_share=1000 --lap_scale=20 --save_labels=True

可以看到,在聚合機(jī)制中引入了拉普拉斯尺度1/20的噪聲,訓(xùn)練好后保存在文件/tmp/mnist_250_student_clean_votes_lap_20.npy中。
運(yùn)行分析腳本來了解學(xué)生模型保護(hù)差異隱私的界限值,并將noise_eps設(shè)置為 2/lap_scale:

python analysis.py --counts_file=/tmp/mnist_250_student_clean_votes_lap_20.npy --max_examples=1000 --delta=1e-5 --noise_eps=0.1 --input_is_counts

以上設(shè)置再現(xiàn)了PATE框架,感興趣的讀者可以在Github查閱全部代碼。
詳情請閱讀原文

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/41638.html

相關(guān)文章

  • 我對分布式一致性協(xié)議的學(xué)習(xí)心得 - CAP、BASE、NWR

    摘要:當(dāng)發(fā)生網(wǎng)絡(luò)分區(qū)時(shí),你將面臨兩個(gè)選擇如果堅(jiān)持保持各節(jié)點(diǎn)之間的數(shù)據(jù)一致性選擇,你需要等待網(wǎng)絡(luò)分區(qū)恢復(fù)后,將數(shù)據(jù)復(fù)制完成,才可以向外部提供服務(wù)。期間發(fā)生網(wǎng)絡(luò)分區(qū)將不能對外提供服務(wù),因?yàn)樗WC不了數(shù)據(jù)一致性。則強(qiáng)調(diào)是高可用,對數(shù)據(jù)一致性要求更低。這篇文章著重點(diǎn)不在于科普,畢竟關(guān)于CAP、BASE的理論的文章,網(wǎng)上很多。所以本文科普篇幅盡量小(只包含概念描述)。主要從幾個(gè)側(cè)面的問題來描述CAP,進(jìn)而描...

    Tecode 評論0 收藏0
  • 差分隱私學(xué)習(xí)總結(jié)

    摘要:基本思想上圖給出了差分隱私的一般性方法。定義一給出了差分隱私的數(shù)學(xué)表達(dá)。從定義可以看出差分隱私技術(shù)限制了任意一條記錄對算法輸出結(jié)果的影響。而基于不同噪音機(jī)制且滿足差分隱私的算法所需噪音大小與全局敏感性密切相關(guān)。 1. 蘋果、微軟、谷歌與差分隱私的愛恨糾葛 showImg(https://segmentfault.com/img/bVYQji?w=550&h=367); 在2016 年6...

    laznrbfe 評論0 收藏0

發(fā)表評論

0條評論

最新活動(dòng)
閱讀需要支付1元查看
<