摘要:針對網(wǎng)絡(luò)數(shù)據(jù)中的隱私保護(hù)問題,浙江大學(xué)加州大學(xué)戴維斯分校和阿里云團(tuán)隊(duì),共同發(fā)表了最新的研究成果,這項(xiàng)成果也已論文形式收錄在中。
個(gè)人數(shù)據(jù)挖掘和個(gè)人隱私保護(hù),并非魚與熊掌,可視分析的技術(shù)手段能夠幫助我們保護(hù)個(gè)人隱私數(shù)據(jù),避免后續(xù)的數(shù)據(jù)挖掘暴露隱私的同時(shí),平衡數(shù)據(jù)質(zhì)量發(fā)生的變化,減少對后續(xù)數(shù)據(jù)挖掘的影響。針對網(wǎng)絡(luò)數(shù)據(jù)中的隱私保護(hù)問題,浙江大學(xué)、加州大學(xué)戴維斯分校和阿里云DataV團(tuán)隊(duì),共同發(fā)表了最新的研究成果《GraphProtector: a Visual Interface for Employing andAssessing Multiple Privacy Preserving Graph Algorithms》【1】,這項(xiàng)成果也已論文形式收錄在IEEE TVCG中。
關(guān)系描述了人與人之間的互相聯(lián)系,它可以是一種靜態(tài)的連接,如“親屬”、“朋友”等,也可以是動(dòng)態(tài)的,通過動(dòng)作將其關(guān)聯(lián),例如“通話”、“郵件”等??萍嫉倪M(jìn)步使得人與人之間的聯(lián)系更為密切,關(guān)系變得更復(fù)雜,進(jìn)而形成了一張偌大的網(wǎng),因此,我們也把這類數(shù)據(jù)稱之為網(wǎng)絡(luò)數(shù)據(jù)(或圖數(shù)據(jù))。網(wǎng)絡(luò)數(shù)據(jù)的研究被廣泛應(yīng)用于各個(gè)領(lǐng)域,它能夠幫助識(shí)別社團(tuán)、劃分人群,定位特殊人物、研究信息傳播、追蹤欺詐行為等。但在對這類數(shù)據(jù)進(jìn)行研究的同時(shí),伴隨著巨大的隱私泄露風(fēng)險(xiǎn)。為了能夠在探索數(shù)據(jù)背后巨大價(jià)值的同時(shí),保護(hù)用戶的隱私不被泄露,我們提出了一個(gè)能夠應(yīng)對網(wǎng)絡(luò)數(shù)據(jù)隱私攻擊,提供有效隱私保護(hù)的可視分析系統(tǒng)——GraphProtector,它不僅能夠更全面、更細(xì)致地保護(hù)用戶隱私,同時(shí)也能夠兼顧數(shù)據(jù)的實(shí)用性,保證數(shù)據(jù)的質(zhì)量。
針對網(wǎng)絡(luò)數(shù)據(jù)的隱私保護(hù)相較于一般數(shù)據(jù)而言,更為困難,原因主要有以下兩點(diǎn):
1) 網(wǎng)絡(luò)數(shù)據(jù)自身結(jié)構(gòu)特征繁多,例如,度數(shù)分布,最短路徑分布,接近中心性分布等,任意的結(jié)構(gòu)特征都有可能成為攻擊者的攻擊入口,可謂是防不勝防;
2) 網(wǎng)絡(luò)數(shù)據(jù)中節(jié)點(diǎn)和邊都攜帶了大量的數(shù)據(jù),這些數(shù)據(jù)無疑給了攻擊者更多的機(jī)會(huì)去識(shí)別用戶現(xiàn)實(shí)世界中的身份。
因此,想要完全解決圖數(shù)據(jù)中的隱私問題,將會(huì)是一個(gè)非常復(fù)雜和困難的工作。在當(dāng)前階段,我們將研究的重點(diǎn)放在了網(wǎng)絡(luò)數(shù)據(jù)的結(jié)構(gòu)特征上,通過修改圖的結(jié)構(gòu)特征保護(hù)用戶的身份不被泄露。其中,之所以選擇結(jié)構(gòu)特征作為著手點(diǎn),最重要的原因是結(jié)構(gòu)特征是網(wǎng)絡(luò)數(shù)據(jù)的基礎(chǔ)屬性,解決結(jié)構(gòu)特征暴露的隱私風(fēng)險(xiǎn)是是解決隱私暴露的必經(jīng)之路。在這次的研究中,我們先以以下三種結(jié)構(gòu)特征作為示例:
度數(shù):節(jié)點(diǎn)度數(shù)是和它關(guān)聯(lián)的邊的總數(shù)(如圖二中,圖c表格中Degree展示了原始圖圖a的度數(shù)分布);
中心指紋:是指在最長路徑i的限制下,圖中普通節(jié)點(diǎn)和中心節(jié)點(diǎn)們之間的最短路徑所形成的向量。這里為了簡化復(fù)雜度,我們?nèi)?b>i設(shè)為了1,即普通節(jié)點(diǎn)和中心節(jié)點(diǎn)們是否存在相鄰關(guān)系作為節(jié)點(diǎn)的中心指紋(如圖二中,圖c中HubFingerprint為選取了原始圖圖a中4號(hào)節(jié)點(diǎn)和7號(hào)節(jié)點(diǎn)作為中心的的中心指紋分布);
子圖:指節(jié)點(diǎn)集和邊集分別是某一圖的節(jié)點(diǎn)集的子集和邊集的子集的圖(如圖二中,圖b為原始圖圖a的子圖);
前人的研究提供了多種隱私匿名保護(hù)思路,如k-匿名、聚類和查分隱私等等,我們在研究中選取了k-匿名模型作為我們保護(hù)的基本方法。k-匿名模型是最經(jīng)典的語義匿名模型之一,在隱私保護(hù)領(lǐng)域得到了廣泛的應(yīng)用,在這個(gè)模型中,它通過準(zhǔn)標(biāo)識(shí)符將數(shù)據(jù)分成若干個(gè)等價(jià)類(例如度數(shù)相同的節(jié)點(diǎn)形成了一個(gè)度數(shù)等價(jià)類,中心指紋相同的節(jié)點(diǎn)形成了一個(gè)中心指紋等價(jià)類,結(jié)構(gòu)相同的子圖形成了一個(gè)子圖等價(jià)類),并要求每個(gè)等價(jià)類中至少存在k個(gè)數(shù)據(jù)記錄(例如當(dāng)k為2時(shí),k-匿名模型要求每一個(gè)度數(shù)等價(jià)類中至少存在2個(gè)節(jié)點(diǎn)),對于這k個(gè)數(shù)據(jù)記錄中的任意一條,被識(shí)別出的概率為1/k,從而使得攻擊者無法確定他們的攻擊目標(biāo)。
通過前人的研究分析我們得知,沒有任何一種隱私保護(hù)方法能夠抵抗所有的攻擊,k-匿名模型是眾多方法中最為強(qiáng)大的一種,它在一定條件下可以抵抗大部分的隱私攻擊,并且對于數(shù)據(jù)質(zhì)量傷害的程度較小,使得經(jīng)過隱私匿名保護(hù)后的數(shù)據(jù)仍然能夠應(yīng)用于后面的分析和研究中。
在k-匿名模型的基礎(chǔ)上,為了盡可能地減少對數(shù)據(jù)質(zhì)量的損害,我們采取了保持節(jié)點(diǎn)個(gè)數(shù)不變,僅增加或減少邊的策略。同時(shí),在目前我們的研究中,為了減少保護(hù)方法之間的沖突以及降低計(jì)算的復(fù)雜度,我們首先將研究的重點(diǎn)放在了增加邊的策略上。
上文中多次提到了“數(shù)據(jù)質(zhì)量”,保證數(shù)據(jù)質(zhì)量是我們隱私保護(hù)過程中的一個(gè)重要目標(biāo)(試想,如果不考慮數(shù)據(jù)質(zhì)量,我們完全可以同化所有的用戶數(shù)據(jù),這樣一來攻擊者將無法定位到攻擊目標(biāo),但這樣的數(shù)據(jù)卻失去了研究意義)。在使用k-匿名模型增加邊的方法來保護(hù)數(shù)據(jù)隱私時(shí),有兩種處理策略:
1)為當(dāng)前等價(jià)類中的元素增加適當(dāng)?shù)倪?,使得這些元素全部轉(zhuǎn)移到其他等價(jià)類中,使得當(dāng)前等價(jià)類不存在,也就不會(huì)存在隱私暴露風(fēng)險(xiǎn);
2)為其他等價(jià)類中元素增加適當(dāng)?shù)倪?,使其中的元素轉(zhuǎn)移到當(dāng)前等價(jià)類中,從而使當(dāng)前等價(jià)類滿足k-匿名模型的要求?;诒Wo(hù)數(shù)據(jù)質(zhì)量的目的,對于這兩種策略,我們將計(jì)算它們的代價(jià),及增加邊的數(shù)量,采取代價(jià)較小的的方法執(zhí)行。我們設(shè)計(jì)了詳細(xì)的算法來實(shí)現(xiàn)這一目標(biāo)。另一方面,對于數(shù)據(jù)質(zhì)量的變化,系統(tǒng)提供若干的實(shí)用性指標(biāo),如度數(shù)、最短路徑等,我們將在數(shù)據(jù)處理中以及數(shù)據(jù)處理后呈現(xiàn)這些指標(biāo)的變化,幫助使用者進(jìn)行決策,從而能夠采取“最優(yōu)”的解決方案。
下圖展現(xiàn)了采用GraphProtector進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)隱私保護(hù)的流程:
數(shù)據(jù)導(dǎo)入:首先,導(dǎo)入待保護(hù)的網(wǎng)絡(luò)數(shù)據(jù),系統(tǒng)將使用節(jié)點(diǎn)連接圖的形式呈現(xiàn)原始數(shù)據(jù)。此外,系統(tǒng)還提供一些原始數(shù)據(jù)的結(jié)構(gòu)特征分布供使用者觀察和探索。
優(yōu)先級(jí)制定及評估指標(biāo)選?。?/strong>在這個(gè)階段,通過觀察原始數(shù)據(jù)的結(jié)構(gòu)特征分布,使用者對節(jié)點(diǎn)的優(yōu)先級(jí)進(jìn)行排序,優(yōu)先級(jí)排序決定了節(jié)點(diǎn)的處理順序,排序較高的節(jié)點(diǎn)將會(huì)被優(yōu)先處理。此外,使用者在優(yōu)先級(jí)排序時(shí)可以鎖定一些節(jié)點(diǎn),被鎖定的節(jié)點(diǎn)(一般為比較重要的節(jié)點(diǎn),如核心人物等)將不會(huì)參與到處理過程中,因此在隱私保護(hù)處理前后,它的關(guān)聯(lián)關(guān)系將不發(fā)生改變。在這個(gè)階段,使用者還需要選擇關(guān)注的實(shí)用性指標(biāo),在數(shù)據(jù)處理前后,系統(tǒng)將呈現(xiàn)這些指標(biāo)的變化,使用者可以通過它們來評估數(shù)據(jù)質(zhì)量的變化。
隱私保護(hù)處理:經(jīng)過以上步驟,我們進(jìn)入了隱私保護(hù)的核心步驟,系統(tǒng)在這個(gè)階段提供多個(gè)保護(hù)器(Protector)用來進(jìn)行隱私保護(hù)處理。每一個(gè)保護(hù)器僅針對一種結(jié)構(gòu)特征,使用者可以按照自己的需求選擇多個(gè)保護(hù)器進(jìn)行組合,從而實(shí)現(xiàn)更為全面和細(xì)致的保護(hù)。
這些保護(hù)器的使用方法將統(tǒng)一遵循圖三種c圖所示的流程,首先,根據(jù)用戶自定義的k值,保護(hù)器會(huì)去識(shí)別數(shù)據(jù)中風(fēng)險(xiǎn),并將風(fēng)險(xiǎn)通過一定的視覺編碼呈現(xiàn)給使用者。然后,使用者可以制定一個(gè)或多個(gè)保護(hù)方案(即保護(hù)目標(biāo)),對于每一個(gè)制定的方案,使用者都可以查看處理前后數(shù)據(jù)實(shí)用性指標(biāo)的變化。接著,使用者對比不同方案的處理結(jié)果,觀察是否達(dá)到了隱私保護(hù)的目的,以及數(shù)據(jù)質(zhì)量變化是否在可接受的范圍之內(nèi),最終選擇“最優(yōu)”的方案進(jìn)行執(zhí)行。
導(dǎo)出數(shù)據(jù):最后,當(dāng)數(shù)據(jù)處理到滿意的程度時(shí),使用者可以選擇導(dǎo)出經(jīng)過處理的的數(shù)據(jù)和數(shù)據(jù)的節(jié)點(diǎn)鏈接圖,以及指標(biāo)變化情況。
下面將向大家詳細(xì)介紹GraphProtector 系統(tǒng)的可視化及交互設(shè)計(jì)。系統(tǒng)主要圍繞兩個(gè)界面進(jìn)行(圖一和圖四):
圖四展示了數(shù)據(jù)導(dǎo)入(圖四a)和優(yōu)先級(jí)制定(圖四b)及評估指標(biāo)選取(圖四c)階段的視圖:
節(jié)點(diǎn)鏈接圖視圖(圖四a):主要通過節(jié)點(diǎn)鏈接圖以及力引導(dǎo)布局形式展現(xiàn)了原始數(shù)據(jù)的分布,在數(shù)據(jù)處理過程中,用戶可以調(diào)出該視圖查看數(shù)據(jù)變化。
優(yōu)先級(jí)視圖(圖四b):使用者可以通過結(jié)構(gòu)特征優(yōu)先級(jí)的分布,在坐標(biāo)軸上選取節(jié)點(diǎn)屬性的范圍,從而制定節(jié)點(diǎn)的優(yōu)先級(jí)。視圖右側(cè)的每一個(gè)區(qū)塊都代表了一個(gè)節(jié)點(diǎn)集合,其中羅列了該集合中節(jié)點(diǎn)的屬性以及該集合中節(jié)點(diǎn)的個(gè)數(shù),使用者通過拖拽交互來調(diào)整集合的優(yōu)先級(jí)順序,以及選擇是否鎖定某些集合的節(jié)點(diǎn)。
實(shí)用性視圖(圖四c):使用者通過這個(gè)視圖,選取所關(guān)注的數(shù)據(jù)質(zhì)量評估指標(biāo),這些指標(biāo)的變化將會(huì)在處理前后呈現(xiàn)出來。
圖一為隱私保護(hù)處理(圖一a,b)和數(shù)據(jù)導(dǎo)出階段的視圖:
保護(hù)器視圖(圖a):主要用于風(fēng)險(xiǎn)定義,風(fēng)險(xiǎn)識(shí)別,風(fēng)險(xiǎn)處理和數(shù)據(jù)評估。這些保護(hù)器具有統(tǒng)一的處理流程(如下圖五所示),分別通過保護(hù)器中的以下控件完成:
?●??全局k值輸入框:快速設(shè)定保護(hù)器內(nèi)的k值;
?●??“半運(yùn)行”按鈕:模擬執(zhí)行制定方案的運(yùn)行結(jié)果,并記錄數(shù)據(jù)變化;
?●??“記錄”按鈕:記錄一個(gè)方案,方便后續(xù)對比不同方案的執(zhí)行效果;
?●??“方案相冊”按鈕:展現(xiàn)所有被記錄的方案以及這些方案被執(zhí)行后的實(shí)用性指標(biāo)變化,方便使用者進(jìn)行比較,從而選取“最優(yōu)”方案執(zhí)行;
目前系統(tǒng)設(shè)計(jì)了三種保護(hù)器,分別為度數(shù)保護(hù)器,中心指紋保護(hù)器和子圖保護(hù)器。
我們采用柱狀圖可視化了數(shù)據(jù)中的節(jié)點(diǎn)度數(shù)分布,橫軸編碼度數(shù),按照從小到大的順序排列,此外,在橫軸上,我們還設(shè)計(jì)了一個(gè)“度數(shù)跳躍”符來編碼度數(shù)分布之間的跳躍情況??v軸編碼該度數(shù)等價(jià)類中的節(jié)點(diǎn)個(gè)數(shù),藍(lán)色和灰色矩形分別編碼鎖定和未鎖定的節(jié)點(diǎn)個(gè)數(shù)。
為了減少用戶的認(rèn)知和交互負(fù)擔(dān),我們設(shè)定了縱軸上的最高值,這個(gè)值是我們認(rèn)為的安全值,即當(dāng)度數(shù)等價(jià)類中的節(jié)點(diǎn)個(gè)數(shù)超過這個(gè)值時(shí),這個(gè)等價(jià)類一般是安全的,所以當(dāng)節(jié)點(diǎn)度數(shù)高于這個(gè)值時(shí),我們可以暫且忽略其具體值,而將重點(diǎn)放在那些不滿足k值的節(jié)點(diǎn)上。系統(tǒng)用虛線來編碼整體k值(在系統(tǒng)中,我們稱之為k線),輔助用戶判斷k值和節(jié)點(diǎn)個(gè)數(shù)的關(guān)系,從而定位風(fēng)險(xiǎn)所在。使用者除了可以通過滑動(dòng)坐標(biāo)軸上滑塊來調(diào)整當(dāng)前保護(hù)器內(nèi)的整體k值外,還可以通過刷選度數(shù)范圍,調(diào)整范圍內(nèi)的局部k值(系統(tǒng)中用實(shí)線編碼),制定更加細(xì)致的隱私保護(hù)方案。
中心指紋保護(hù)器分為兩個(gè)部分,左側(cè)為中心節(jié)點(diǎn)選取面板,右側(cè)為中心指紋樹。中心節(jié)點(diǎn)選取面板呈現(xiàn)了所有節(jié)點(diǎn)的結(jié)構(gòu)信息,用戶通過這個(gè)面板,選取重要的節(jié)點(diǎn)作為中心節(jié)點(diǎn)。右側(cè)中心指紋樹將根據(jù)用戶的選擇進(jìn)行實(shí)時(shí)響應(yīng),樹上每個(gè)節(jié)點(diǎn)代表了一個(gè)中心指紋等價(jià)類,即這個(gè)等價(jià)類中的節(jié)點(diǎn)具有相同的中心指紋,樹中深度為i+1的等價(jià)類節(jié)點(diǎn)表示與i個(gè)中心節(jié)點(diǎn)相鄰,所以若n為中心節(jié)點(diǎn)的個(gè)數(shù),那么樹的高度為n+1。
中心指紋樹上的每一個(gè)節(jié)點(diǎn)編碼與度數(shù)等價(jià)中的編碼保持一致,虛線表示當(dāng)前保護(hù)器設(shè)定的整體k值,藍(lán)色和灰色舉行分別編碼鎖定和未鎖定的節(jié)點(diǎn)個(gè)數(shù),右側(cè)從上到下排列的i個(gè)矩形分別代表i個(gè)中心節(jié)點(diǎn),順序和左側(cè)中心節(jié)點(diǎn)選取面板中中心節(jié)點(diǎn)的順序保持一致,只有與當(dāng)前節(jié)點(diǎn)等價(jià)類關(guān)聯(lián)的中心節(jié)點(diǎn)所代表的矩形將才會(huì)被繪制出來,通過這種編碼方式表達(dá)每個(gè)中心指紋等價(jià)類的指紋信息。
子圖保護(hù)器分為三個(gè)部分,左側(cè)為子圖設(shè)定面板,使用者通過這個(gè)面板設(shè)定子圖,子圖可以來自于一些經(jīng)典拓?fù)浣Y(jié)構(gòu),如形狀結(jié)構(gòu),環(huán)形結(jié)構(gòu)等,也支持從外部導(dǎo)入。在子圖設(shè)定面板中,系統(tǒng)同樣通過灰色矩形的個(gè)數(shù)編碼識(shí)別得到的子圖的個(gè)數(shù)。中間面板為子圖識(shí)別面板,將可視化圖中識(shí)別得到的當(dāng)前子圖結(jié)構(gòu)和相似子圖結(jié)構(gòu),當(dāng)識(shí)別得到的當(dāng)前子圖結(jié)構(gòu)不滿足k值時(shí),用戶可以選擇將相似的子圖補(bǔ)全成為當(dāng)前的子圖。右側(cè)子圖結(jié)構(gòu)展示面板,使用者可以通過與子圖識(shí)別面板的交互查看子圖在圖中的位置。
歷史記錄視圖使用時(shí)間軸的形式可視化了每一步隱私保護(hù)操作后數(shù)據(jù)的變化。在每一個(gè)歷史記錄中,標(biāo)題描述了該步驟采用的是哪種類型的保護(hù)器,記錄左側(cè)我們采用CDE(curvedensity estimates)的方法可視化了圖的原始分布(即圖四a的節(jié)點(diǎn)連接圖),邊越多顏色越深。在CDE得到的分布圖上,我們使用深色的直線表示當(dāng)前處理所增加的邊,當(dāng)用戶鼠標(biāo)移動(dòng)到一個(gè)歷史記錄時(shí),該步所增加的邊將在圖四a中高亮出來。右側(cè)則呈現(xiàn)了數(shù)據(jù)指標(biāo)的變化,包括指標(biāo)的當(dāng)前值和變化量,通過紅綠顏色編碼指標(biāo)的增加和遞減,而對于不能計(jì)算增量的指標(biāo),我們用藍(lán)色進(jìn)行編碼。
云服務(wù)器99元拼團(tuán)購!拉新還可贏現(xiàn)金紅包!300萬等你瓜分!
馬上一鍵開團(tuán)贏紅包: http://click.aliyun.com/m/100...
閱讀原文
本文來自云棲社區(qū)合作伙伴“阿里技術(shù)”,
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/11412.html
摘要:年,阿里云在全球范圍內(nèi)率先發(fā)起數(shù)據(jù)保護(hù)倡議。借助阿里云的網(wǎng)絡(luò)溯源,警方最終成功抓捕到名犯罪嫌疑人,將黑客組織一網(wǎng)打盡。過去兩年,阿里云已陸續(xù)協(xié)助警方破獲案件數(shù)十起攻擊相關(guān)案件,抓捕百余人次。9月28日,阿里云正式發(fā)布首個(gè)企業(yè)云安全架構(gòu)和《2017阿里云安全白皮書》(以下簡稱白皮書),企業(yè)可參考架構(gòu)指南和白皮書構(gòu)建安全、穩(wěn)固的信息化架構(gòu)。白皮書將用戶隱私和數(shù)據(jù)安全列為第一原則,并于2015年全...
摘要:去年月,阿里云宣布將設(shè)立阿里云廣東研發(fā)中心,招募名云計(jì)算和人工智能工程師,推動(dòng)前沿技術(shù)與廣東產(chǎn)業(yè)融合。吳維剛表示,人工智能與云計(jì)算,兩者不是同一事物,但是相互發(fā)展。近年來,隨著互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)的蓬勃發(fā)展,大數(shù)據(jù)、云計(jì)算、人工智能、物聯(lián)網(wǎng)等新技術(shù)也迎來了廣闊的發(fā)展空間。去年,阿里云工業(yè)互聯(lián)網(wǎng)全國總部正式在廣州揭牌成立,阿里云將聯(lián)合廣東本地合作伙伴,共同打造服務(wù)全國的工業(yè)大腦。去年9月,華為與...
摘要:題記三國時(shí)赤壁鏖戰(zhàn),孔明說,天有不測風(fēng)云,欲破曹公,宜用火攻,萬事俱備,只欠東風(fēng)?,F(xiàn)在公共云混戰(zhàn),我想說,無災(zāi)備不上云,保護(hù)數(shù)據(jù),未雨綢繆,帶了雨傘,還需雨衣。題記:三國時(shí)赤壁鏖戰(zhàn),孔明說,天有不測風(fēng)云,欲破曹公,宜用火攻,萬事俱備,只欠東風(fēng)。現(xiàn)在公共云混戰(zhàn),我想說,無災(zāi)備不上云,保護(hù)數(shù)據(jù),未雨綢繆,帶了雨傘,還需雨衣。未雨綢繆,到底是帶雨傘還是雨衣呢?時(shí)代在變,人的追求也在變。隨著公共云對...
閱讀 2347·2021-11-15 11:38
閱讀 3557·2021-09-22 15:16
閱讀 1200·2021-09-10 11:11
閱讀 3169·2021-09-10 10:51
閱讀 2949·2019-08-30 15:56
閱讀 2788·2019-08-30 15:44
閱讀 3193·2019-08-28 18:28
閱讀 3532·2019-08-26 13:36