數(shù)據(jù)安全、隱私保護、數(shù)據(jù)孤島是AI時代遇到的普遍難題。
在人工智能的發(fā)展道路上,除了算法、算力的要求,“喂養(yǎng)”人工智能模型需要海量、多維數(shù)據(jù)進行模型訓練。在此過程中,數(shù)據(jù)安全、個人數(shù)據(jù)隱私等風險事件頻發(fā),數(shù)據(jù)孤島現(xiàn)象頻現(xiàn)。隱私與數(shù)據(jù)保護越發(fā)得到重視,相關(guān)的法律法規(guī)日漸嚴格和完善。
在此背景下,“聯(lián)邦學習”為以上問題的解決提供了一個可行方案。
【資料圖】
所謂“聯(lián)邦學習”,其基本思想是建立一個共有模型,各個參與者的身份和地位相同,通過加密機制下的參數(shù)交換方式,實現(xiàn)不同企業(yè)、不同部門所擁有的數(shù)據(jù)不交換、不移動。在不違反數(shù)據(jù)隱私保護法律法規(guī)的前提下,模型利用全量數(shù)據(jù)進行訓練和模型優(yōu)化,從而得到最優(yōu)模型結(jié)果。
香港科技大學計算機與工程系講座教授和前系主任、中國人工智能學會(CAAI)榮譽副理事長、微眾銀行首席人工智能官楊強教授曾以羊與草為喻,形容聯(lián)邦學習的思路所在。
假設用一只羊來類比機器學習模型,我們希望羊吃了草以后能夠長大。過去的做法是,把草買到一起來建立模型。羊不動,但是草被購買到中心。相當于用簡單粗暴的辦法來獲取數(shù)據(jù),形成大數(shù)據(jù),來建立模型。
但我們希望能夠保護各自的隱私,所以讓草不動,讓羊動。也就是說,我們帶著模型到不同的草場去訪問,那么久而久之羊就長大了——這個就是聯(lián)邦學習的新思路,就是讓草不出草場,本地主人無法知道羊吃了哪些草,但是羊還是長大了。
“聯(lián)邦學習”在解決數(shù)據(jù)共享和數(shù)據(jù)隱私保護領域展現(xiàn)出強大的吸引力。到目前為止,聯(lián)邦學習已在金融、廣告營銷等方面獲得落地。
比如,互聯(lián)網(wǎng)平臺推送“千人千面”式的營銷信息時,其背后的推薦模型就需要大量用到用戶的特征數(shù)據(jù)。但單一企業(yè)只擁有用戶的一部分特征數(shù)據(jù),如果可以接入更多其他互聯(lián)網(wǎng)企業(yè)的數(shù)據(jù)或者是投放廣告主關(guān)于用戶的數(shù)據(jù),那么將大幅提升廣告推薦的效果,既能提升點擊率也可以提升廣告主的ROI,聯(lián)邦學習的出現(xiàn)就很好的解決了這個問題。
金融領域同樣如此,單個金融機構(gòu)掌握的用戶信息較少,除了個人征信系統(tǒng)之外,各平臺數(shù)據(jù)之間彼此是不互通的。聯(lián)邦學習的出現(xiàn)同樣讓各大金融機構(gòu)之間可以聯(lián)合建模,對于用戶的資質(zhì)進行全面客觀的評價,降低貸款的違約率和資產(chǎn)的不良率。
不過在現(xiàn)實中,“聯(lián)邦學習”商業(yè)應用仍然面臨一些問題,且其在技術(shù)研究中也仍然存在一些難點有待突破。
比如,如何在效率、性能與安全性之間取得平衡是一個難題。目前“聯(lián)邦學習”系統(tǒng)嚴格保護用戶本地數(shù)據(jù)不外泄,只傳輸模型更新,而且即使是模型更新,也會對模型進行加密后再傳輸。對于更復雜的加密系統(tǒng),就意味著回傳也需要更多的資源和實踐去解密。效率、性能與安全性之間有此存在沖突。
再如,“聯(lián)邦學習”面臨著的“數(shù)據(jù)下毒”的威脅。聯(lián)邦學習的分布式特點以及安全聚合機制往往讓數(shù)據(jù)造假變得更容易,更難被發(fā)現(xiàn)和舉證。每一方都有可能通過構(gòu)造“數(shù)據(jù)下毒”來控制整個模型的訓練結(jié)果。
經(jīng)過數(shù)年發(fā)展,“聯(lián)邦學習”究竟在技術(shù)和商業(yè)應用層面有何發(fā)展?
對此,鈦媒體App近日專訪了楊強教授,楊強是國內(nèi)聯(lián)邦學習領域的知名學者。2018年,楊強帶領的微眾銀行AI團隊在國內(nèi)國內(nèi)引進了并延展了聯(lián)邦學習(Federated Learning)概念,在國際首次系統(tǒng)性提出聯(lián)邦學習理論。2019年,微眾銀行AI團隊開源了首個工業(yè)級聯(lián)邦學習技術(shù)框架FATE,同年6月捐獻給Linux基金會。
不久前,楊強教授的團隊與上海交通大學、中山大學等機構(gòu)聯(lián)合撰寫的三篇論文被IJCAI 2022、TPAMI 2022、ACM TIST等國際人工智能頂級學術(shù)期刊和頂級學術(shù)會議收錄發(fā)表。三篇論文分別為:《聯(lián)邦學習中隱私與模型性能沒有免費午餐定理》、《FedCG: 聯(lián)邦生成對抗網(wǎng)絡保護隱私保障性能》、《FedIPR:聯(lián)邦學習模型所屬權(quán)驗證》。
在楊強教授的回答中,有三點觀點值得關(guān)注。首先,在聯(lián)邦學習的隱私保護、模型性能、算法效率三者需要平衡,且可以平衡,目前楊強教授的團隊已經(jīng)找到了一條在更好的隱私保護能力的同時,讓模型性能上也具有競爭力的一條道路。
其次,長遠來看,隨著社會數(shù)智化的發(fā)展、數(shù)據(jù)要素的流通、數(shù)據(jù)交易所的落地,數(shù)據(jù)的定價、數(shù)據(jù)知識產(chǎn)權(quán)的認證,數(shù)據(jù)安全隱私的保護等環(huán)節(jié)都離不開聯(lián)邦學習,這也是聯(lián)邦學習發(fā)展的最大機遇。
第三,讓技術(shù)和法律法規(guī)結(jié)合起來是一大挑戰(zhàn)。關(guān)鍵是要讓整個聯(lián)邦學習決策過程變得可解釋、透明,并且可監(jiān)管、可問詢、可追蹤。
以下是鈦媒體App與楊強教授的采訪實錄,經(jīng)編輯后發(fā)布:
解讀三篇論文:從理論到實踐,再到規(guī)?;凸こ袒?/strong>
問:近期發(fā)表的3篇論文,分別是從信息論、聯(lián)邦學習效率提升以及模型版權(quán)驗證切入,為什么會選擇這3個角度作為研究的切入?背后有怎樣的研究路徑和規(guī)劃?
楊強:計算機學科的發(fā)展往往是先有理論再有實踐,然后進一步發(fā)展理論,我們現(xiàn)在處于第三步,那么這一步的理論要解決的問題是什么?
首先,我們要注意聯(lián)合建模的安全性(這個是大家特別關(guān)心的)和聯(lián)合建模的可用性。如果只是一個極端安全的模型,沒有人能用,這東西也沒用。模型質(zhì)量要好、準確率高,同時訓練速度要快,要安全,需要這三點的平衡。
基于這三點的平衡,我們就要做下面幾件事,第一件事,是要證明這其中確實是需要做平衡的。因此,我們發(fā)布的文章《聯(lián)邦學習中隱私與模型性能沒有免費午餐定理》闡述,聯(lián)邦學習的隱私和模型性能是沒有免費午餐。兩者必須要做出權(quán)衡和取舍。
第二,在聯(lián)邦學習的安全和效率之間,有沒有可能很聰明地發(fā)明一些算法,能夠?qū)崿F(xiàn)安全性和模型的效能,以及準確率的同時提升。我們發(fā)表 《FedCG:聯(lián)邦條件對抗生成網(wǎng)絡》闡述了,我們可以在每一個參與方都建立一個它的鏡像模型,然后讓這些鏡像模型之間互相溝通,這樣就大大的降低了隱私泄露的可能性,同時我們建模效率和效果都大為提升。
關(guān)于最后一篇文章,聯(lián)邦學習不僅僅是一個訓練、一個模型,而是從數(shù)據(jù)的收集、選擇,模型的訓練,到模型的治理,直至模型和別人進行交換。在這種情況下,我們就提出了“全生命周期的聯(lián)邦學習的模型治理”。
具體來說,模型治理其實和數(shù)據(jù)治理一樣重要。未來的世界我們看到是一個數(shù)字化的世界,而數(shù)字都是以模型的形式出現(xiàn)。但是,每個模型是誰做出來的,誰用過,誰從誰那買的,這個模型有什么危險性,有什么特別性等等,這些問題我們都叫模型的所屬權(quán)驗證。而在模型里面加入水印實現(xiàn)歸屬權(quán)的驗證,目前在業(yè)界我們是第一個做出來。
我們基于這3個不同的角度,從理論到實踐,到規(guī)模化,到工程化生命周期管理,應該說是一個全面的概括。這是“可信聯(lián)邦學習”的一個里程碑。
行業(yè)應用及商業(yè)前景
問:從目前的應用,到未來可以預見的一些場景,聯(lián)邦學習會產(chǎn)生哪幾方面的影響?在與行業(yè)結(jié)合的過程中,還有什么問題需要注意?
楊強:越來越多的行業(yè)在提數(shù)字化和智能化,聯(lián)合起來就是數(shù)智化。數(shù)智化的過程,離不開一個觀念,就是數(shù)據(jù)要素的流通,數(shù)據(jù)從一個地方流到另外一個地方,通過數(shù)據(jù)交易所進行交易。所以需要對數(shù)據(jù)進行定價,數(shù)據(jù)的知識產(chǎn)權(quán)要有認證,數(shù)據(jù)的安全隱私要有保護,這些要求是未來金融的一些重要的特征,而所有這些都離不開聯(lián)邦學習,聯(lián)邦學習實現(xiàn)這些目標的一個有力工具。
未來要注意的一個重要方面,就是如何有機地讓技術(shù)和法律法規(guī)結(jié)合起來?,F(xiàn)在有數(shù)據(jù)安全法,還有很多金融行業(yè)的一些規(guī)章制度,其中有一部分是可以用技術(shù)來實現(xiàn)的,但是有一部分是需要有法律和監(jiān)管來實現(xiàn)的,這兩方面的有機結(jié)合,我們現(xiàn)在正在嘗試。我們要做到這種無縫的對接,能夠既有技術(shù)的保證,又有法律和規(guī)章的保證,同時又需要讓整個決策過程變得可解釋,透明,并且可監(jiān)管、可問詢、可追蹤,這些都是我們所面臨的一些挑戰(zhàn)。
問:從商業(yè)化的角度來看,聯(lián)邦學習未來的商業(yè)潛力是怎樣的?
楊強:其實他們就像任何技術(shù)一樣,是需要滿足自然的發(fā)展規(guī)律的,比方說一個技術(shù)的出現(xiàn),先適用在一些案例上,取得了成功,于是各方都想積極地參與試用,會發(fā)現(xiàn)一些挑戰(zhàn),會有一些新的解決方案,讓這些技術(shù)進行升級,這樣最后能夠成熟到大家都普遍使用,所以聯(lián)邦學習和剛才所說的這些技術(shù),也是一樣的,要滿足這樣的規(guī)律的。
這其中的市場空間應該是很廣泛的,在我個人看來,未來的計算,一定是數(shù)據(jù)和模型的計算。為了保護數(shù)據(jù)安全和用戶隱私,在我們管道里跑的不應該是原始數(shù)據(jù),應該是由數(shù)據(jù)產(chǎn)生的模型,而模型的交流組合、更新迭代,認證審計,這些都需要我們整個人工智能行業(yè)和大數(shù)據(jù)行業(yè)的升級迭代,都離不開聯(lián)邦學習。(作者|蔡鵬程)
關(guān)鍵詞: 微眾銀行
網(wǎng)站首頁 |網(wǎng)站簡介 | 關(guān)于我們 | 廣告業(yè)務 | 投稿信箱
Copyright © 2000-2020 hngelin.com All Rights Reserved.
中國網(wǎng)絡消費網(wǎng) 版權(quán)所有 未經(jīng)書面授權(quán) 不得復制或建立鏡像
聯(lián)系郵箱:920 891 263@qq.com
砀山县| 西盟| 平定县| 洛隆县| 保德县| 芒康县| 肥城市| 比如县| 故城县| 隆回县| 连南| 郯城县| 施秉县| 朝阳区| 新平| 讷河市| 桃江县| 宜丰县| 阿巴嘎旗| 广灵县| 西贡区| 武胜县| 祁门县| 清徐县| 秦安县| 冷水江市| 锦州市| 南宁市| 赣州市| 海晏县| 松溪县| 惠水县| 白山市| 永城市| 恭城| 酉阳| 图们市| 泰顺县| 常德市| 崇阳县| 哈尔滨市|