Meta 不僅是全球最大的社交網(wǎng)絡(luò)公司,和當(dāng)下最熱門技術(shù)概念“元宇宙”的推行者。它同時(shí)也是人工智能(AI)研究的全球頂級(jí)公司之一。
該公司在 AI 方面卓越研究成果的背后,必然有強(qiáng)大的算力支持。不過(guò)一直以來(lái),Meta 從未對(duì)外界公開展示過(guò)其算力究竟有多厲害。
而在今天,Meta 公司突然對(duì)外宣布了其在打造 AI 超級(jí)計(jì)算機(jī)方面的最新進(jìn)展。
根據(jù) Meta 此次公開透露的結(jié)果,其打造的超級(jí)計(jì)算機(jī) AI RSC,目前算力在全球應(yīng)該已經(jīng)排到了前四的水平。
這個(gè)情況已經(jīng)足以令人非常震驚。畢竟,在算力方面能夠和 RSC 相提并論的其它超級(jí)計(jì)算機(jī),均由中國(guó)、美國(guó)、日本的國(guó)有研究機(jī)構(gòu)運(yùn)作——而 RSC 是前五里唯來(lái)自于私營(yíng)機(jī)構(gòu)的超算系統(tǒng)。
這還沒(méi)完:這臺(tái)超級(jí)計(jì)算機(jī),還在以驚人的速度,變得更快、更強(qiáng)。
Meta 預(yù)測(cè),到今年7月,也即半年之內(nèi),RSC 的算力將實(shí)現(xiàn)2.5倍的增長(zhǎng)。另?yè)?jù)專業(yè)機(jī)構(gòu) HPCwire 估計(jì),Meta 的 RSC 超級(jí)計(jì)算機(jī),其運(yùn)行 Linpack benchmark 的算力將有望達(dá)到220 PFlops。
如無(wú)意外,RSC 將成為名副其實(shí)的“全球最快 AI 超級(jí)計(jì)算機(jī)”。
AI RSC 內(nèi)部,圖片來(lái)源:Meta
AI 研發(fā)進(jìn)入“超算”時(shí)代
首先需要回答一個(gè)問(wèn)題:什么樣的 AI 研究,需要如此強(qiáng)大的超級(jí)計(jì)算機(jī)?
一般的模型,或許可以在一般的電腦或普通的數(shù)據(jù)中心里,用一塊或是幾塊顯卡就可以完成訓(xùn)練。而 Meta 正在研究的,是比目前的模型參數(shù)量要大得多,性能要求更高、更嚴(yán)格,訓(xùn)練花費(fèi)時(shí)間更久的——超大模型。
以識(shí)別有害內(nèi)容為例:CV 算法需要能夠以更高的采樣率,處理更大、更長(zhǎng)的視頻;語(yǔ)音識(shí)別算法需要在極大噪音的復(fù)雜背景下達(dá)到更高的識(shí)別準(zhǔn)確度;NLP 模型要能夠同時(shí)理解多種語(yǔ)言、方言和口音,等等……
在過(guò)去,許多算法在跑分?jǐn)?shù)據(jù)集上都得到了不錯(cuò)的成績(jī)。然而,Meta 是一家?guī)状笾奘畠|級(jí)別用戶量的公司,它必須確保同一個(gè)模型投放到生產(chǎn)環(huán)境中能夠最大限度保證普適性。所以,一般模型不夠用了,現(xiàn)在要訓(xùn)練大模型。
訓(xùn)練大模型,需要大算力——問(wèn)任何一個(gè)從事大模型研究的人,你都會(huì)得到這樣的答案。畢竟過(guò)去的訓(xùn)練任務(wù)用幾周能夠完成,可在今后,面對(duì)新的大模型,我們可等不起幾年……
“在今天,包括識(shí)別有害內(nèi)容等在內(nèi)的許多重要的工作,都對(duì)于超大模型產(chǎn)生了極大的需要,”Meta 在其新聞稿中寫道,“而高性能計(jì)算系統(tǒng)是訓(xùn)練這些超大模型的重要組件?!?/p>
Meta 此次發(fā)布的超級(jí)計(jì)算機(jī) AI RSC,全稱為 AI Research SuperCluster(人工智能研究超級(jí)計(jì)算集群)。
雖然 Meta 在今天首次公開宣布推出這一系統(tǒng),實(shí)際上 RSC 的前身版本最早在 2017 年就已經(jīng)在 Facebook 公司內(nèi)部投入生產(chǎn)使用了。當(dāng)時(shí),F(xiàn)acebook 團(tuán)隊(duì)采用了2.2萬(wàn)張英偉達(dá) V100 Tensor GPU 組成了首個(gè)單一集群。該系統(tǒng)每天可以運(yùn)行大約3.5萬(wàn)個(gè)訓(xùn)練任務(wù)。
據(jù) HPCwire 預(yù)計(jì),這個(gè)基于 V100 GPU 的前身版本,按照 Linpack benchmark 的浮點(diǎn)計(jì)算性能應(yīng)該已經(jīng)達(dá)到了135 PFlops。這個(gè)水平在全球超算排行榜 Top500 的2021年11月排名中,已經(jīng)足以排到第三名了,也即其算力可能已經(jīng)超越了美國(guó)能源部在加州 Livermore 運(yùn)作的“山脊”(Sierra)超級(jí)計(jì)算機(jī)。
不過(guò),對(duì)于 Meta 來(lái)說(shuō),這還遠(yuǎn)遠(yuǎn)不夠。他們想要的,是世界上最大、最快、最強(qiáng)的 AI 超級(jí)計(jì)算機(jī)。
這臺(tái)超算還必須要達(dá)到生產(chǎn)環(huán)境的數(shù)據(jù)安全級(jí)別,畢竟在未來(lái),Meta 的生產(chǎn)系統(tǒng)所用的模型可能直接在它上面訓(xùn)練甚至運(yùn)行。
并且,這臺(tái)超算還需要為用戶——Meta 公司的 AI 研究員——提供不亞于一般訓(xùn)練機(jī)/顯卡的使用便利性,和流暢的開發(fā)者體驗(yàn)。
Meta AI RSC 技術(shù)項(xiàng)目經(jīng)理 Kevin Lee 圖片來(lái)源:Meta
2020年初,Meta 團(tuán)隊(duì)認(rèn)為當(dāng)時(shí)公司的超算集群難以跟上未來(lái)大模型訓(xùn)練的需要,決定“重新出發(fā)”,采用最頂尖的 GPU 和數(shù)據(jù)傳輸網(wǎng)絡(luò)技術(shù),打造一個(gè)全新的集群。
這臺(tái)新的超算,必須能夠在大小以 EB(超過(guò)10億GB)為單位的數(shù)據(jù)集上,訓(xùn)練具有超過(guò)萬(wàn)億參數(shù)量的超大神經(jīng)網(wǎng)絡(luò)模型。
(例如,中國(guó)科研機(jī)構(gòu)智源 BAAI 開發(fā)的“悟道”,以及谷歌去年用 Switch Transformer 技術(shù)訓(xùn)練的混合專家系統(tǒng)模型,都是參數(shù)量達(dá)到萬(wàn)億級(jí)別的大模型;相比來(lái)看,此前在業(yè)界非常著名的 OpenAI GPT-3 語(yǔ)言模型,性能和泛用性已經(jīng)非常令人驚訝,參數(shù)量為1750億左右。)
Meta 團(tuán)隊(duì)選擇了三家在 AI 計(jì)算和數(shù)據(jù)中心組件方面最知名的公司:英偉達(dá)、Penguin Computing,和 Pure Storage。
具體來(lái)說(shuō),Meta 直接從英偉達(dá)采購(gòu)了 760 臺(tái) DGX 通用訓(xùn)練系統(tǒng)。這些系統(tǒng)包含共計(jì)6080塊 Ampere 架構(gòu) Tesla A100 Tensor 核心 GPU,在當(dāng)時(shí),乃至今天,都是最頂級(jí)的 AI 訓(xùn)練、推理、分析三合一系統(tǒng)。中間的網(wǎng)絡(luò)通信則采用了英偉達(dá) InfiniBand,數(shù)據(jù)傳輸速度高達(dá)200GB每秒。
存儲(chǔ)方面,Meta 從 Pure Storage 采購(gòu)了共計(jì) 231PB 的閃存陣列、模塊和緩存容量;而所有的機(jī)架搭建、設(shè)備安裝和數(shù)據(jù)中心的后續(xù)管理工作,則由從 Facebook 時(shí)代就在服務(wù)該公司的 Penguin Computing 負(fù)責(zé)。
這樣組建出來(lái)的新超算集群,Meta 將其正式命名為 AI RSC:
圖中顯示的是 RSC 第一階段(P1)的參數(shù)細(xì)節(jié)。圖片來(lái)源:Meta
相較于之前 FAIR 采用 V100 顯卡搭建的計(jì)算集群,初代 RSC 對(duì)于生產(chǎn)級(jí)別的計(jì)算機(jī)視覺(jué)類算法帶來(lái)了20倍的性能提升,運(yùn)行英偉達(dá)多卡通訊框架的速度提升了超過(guò)9倍,對(duì)于大規(guī)模自然語(yǔ)言處理類 workflow 的訓(xùn)練速度也提升了3倍——節(jié)約的訓(xùn)練時(shí)間以周為單位。
值得一提的是,在 Meta 剛剛做好 RSC 升級(jí)計(jì)劃的時(shí)候,新冠疫情突然襲來(lái)了。所有實(shí)體建造的工期都遇到了極大的不確定性,RSC 能否成功升級(jí)換代,打上了一個(gè)巨大的問(wèn)號(hào)。
然而,公司業(yè)務(wù)發(fā)展和 AI 科研的需要,無(wú)法等待新冠疫情。負(fù)責(zé) RSC 升級(jí)和建造的團(tuán)隊(duì),以及包括英偉達(dá)、Penguin Computing、Pure Storage 等三家硅谷公司在內(nèi)的技術(shù)合作方,不得不在極大的工期壓力下,完成數(shù)據(jù)中心的裝修建設(shè)、設(shè)備的生產(chǎn)和運(yùn)輸、現(xiàn)場(chǎng)裝機(jī)、布線、調(diào)試等一系列非常繁瑣和技術(shù)要求極高的工作。
更夸張的是由于當(dāng)時(shí)全美各地都有居家隔離令,整個(gè) RSC 項(xiàng)目團(tuán)隊(duì)的多位負(fù)責(zé)人,都不得不在家中遠(yuǎn)程工作……團(tuán)隊(duì)里的研究員 Shubho Sengupta 表示,“最讓我感到驕傲的是,我們?cè)谕耆h(yuǎn)程辦公的條件下完成了(RSC 的升級(jí)工作)。考慮到項(xiàng)目的復(fù)雜性,完全沒(méi)有和其它團(tuán)隊(duì)成員見(jiàn)面就能把這些事都辦了,簡(jiǎn)直太瘋狂了”。
就目前來(lái)看,RSC 已經(jīng)是世界上運(yùn)行速度最快的 AI 超級(jí)計(jì)算機(jī)之一了。
但是 Meta 仍不滿足。
打造全球最快、最安全的 AI 超算
為了滿足 Meta 在生產(chǎn)環(huán)境和 AI 研究這兩大方面日益增長(zhǎng)的算力需求,RSC 必須持續(xù)升級(jí)擴(kuò)容。
按照 Meta 的 RSC 第二階段(P2)計(jì)劃,到今年7月,也即半年之內(nèi),整個(gè)計(jì)算集群的 A100 GPU 總數(shù)提升到驚人的 1.6 萬(wàn)塊……
初代 RSC 采用的 DGX A100 單機(jī)數(shù)量是760臺(tái),折合6,080張顯卡——這樣計(jì)算的話,也就是說(shuō) RSC 將在 P2 再增加9,920張顯卡,即 Meta 需要再?gòu)挠ミ_(dá)采購(gòu)1,240臺(tái) DGX A100 超級(jí)計(jì)算機(jī)……
就連英偉達(dá)也表示,Meta 的計(jì)劃,將讓 RSC 成為英偉達(dá) DGX A100 截至目前最大的客戶部署集群,沒(méi)有之一。
算力提升了,其它配套設(shè)施,包括存儲(chǔ)和網(wǎng)絡(luò),也要跟上。
按照 Meta 的預(yù)計(jì),RSC 的 P2 完成后,其數(shù)據(jù)存儲(chǔ)總量將達(dá)到1 EB——折合超過(guò) 10 億 GB。
不僅如此,整個(gè)超算集群的單個(gè)節(jié)點(diǎn)之間的通訊帶寬也獲得了史無(wú)前例般的提升,達(dá)到驚人的16TB/s,并且實(shí)現(xiàn)一比一過(guò)載(也即每個(gè) DGX A100 計(jì)算節(jié)點(diǎn)對(duì)應(yīng)一個(gè)網(wǎng)絡(luò)接口,不出現(xiàn)多節(jié)點(diǎn)共享接口爭(zhēng)搶帶寬資源的情況)。
(這里還有個(gè)點(diǎn)值得單獨(dú)提一下:按照 Meta 團(tuán)隊(duì)的估計(jì),像 RSC 這樣采用 DGX A100 節(jié)點(diǎn)組建超算集群的做法,能夠支持的節(jié)點(diǎn)上限也就是1.6萬(wàn)了,再多就會(huì)出現(xiàn)過(guò)載,意味著追加投資的邊際收益顯著降低。)
在數(shù)據(jù)安全的角度,Meta 這次也沒(méi)有忘了在新聞稿中專門介紹其數(shù)據(jù)處理方式,以求令公眾安心。
“無(wú)論是檢測(cè)有害內(nèi)容,還是創(chuàng)造新的增強(qiáng)現(xiàn)實(shí)體驗(yàn)——為了打造新的 AI 模型,我們都會(huì)用到來(lái)自公司生產(chǎn)系統(tǒng),取自真實(shí)世界的數(shù)據(jù)?!盡eta 表示,這也是為什么RSC 從設(shè)計(jì)之初就加入了數(shù)據(jù)隱私和數(shù)據(jù)安全方面的考慮。只有這樣,Meta 的研究院才能夠安全地使用加密、匿名化后的真實(shí)世界數(shù)據(jù)來(lái)訓(xùn)練模型。
1)RSC 被設(shè)計(jì)為無(wú)法和真正的互聯(lián)網(wǎng)直接連接,而是和位于 RSC 所在地附近的一座 Meta 數(shù)據(jù)中心進(jìn)行連接;
2)當(dāng) Meta 的研究人員向 RSC 的服務(wù)器導(dǎo)入數(shù)據(jù)的時(shí)候,這些數(shù)據(jù)首先要通過(guò)一道隱私審查系統(tǒng),確認(rèn)數(shù)據(jù)已經(jīng)進(jìn)行了匿名化;
3)在數(shù)據(jù)正式投入到 AI 模型算法的訓(xùn)練之前,數(shù)據(jù)也會(huì)再次進(jìn)行加密,并且密鑰是周期生成和拋棄的,這樣即使有舊的訓(xùn)練數(shù)據(jù)存儲(chǔ),也無(wú)法被訪問(wèn);
4)數(shù)據(jù)只會(huì)在訓(xùn)練系統(tǒng)的內(nèi)存中解密,這樣即使有不速之客闖入 RSC,對(duì)服務(wù)器進(jìn)行物理訪問(wèn),也無(wú)法破解數(shù)據(jù)。
可能是出于保密的目的,Meta 甚至連 RSC 的具體所在地都沒(méi)有透露……
不過(guò)根據(jù)已知的情況,RSC 的附近必有一座 Facebook/Meta 數(shù)據(jù)中心存在。并且,下圖截取自 RSC 的公告視頻,圖中我們可以看到,AI RSC 位于右上,左下則是 Meta 的一座數(shù)據(jù)中心。圖中有著大量較高的樹木。
硅星人基本可以確定,上圖中的 Meta 數(shù)據(jù)中心位于美國(guó)弗吉尼亞州 Henrico 縣。該縣是美國(guó)東部最大的數(shù)據(jù)中心集中地,也是連接歐洲、南美、亞洲、非洲的多條海底光纜在美國(guó)的末端所在地。至于 RSC 的實(shí)際所在地,其前身應(yīng)該是 QTS Richmond 數(shù)據(jù)中心。
右邊為 Meta 數(shù)據(jù)中心,左邊為 QTS Richmond 也即 Meta AI RSC 所在地 截自 Google Maps
最后,讓我們來(lái)看看成本……
不考慮同樣極其昂貴的存儲(chǔ)和網(wǎng)絡(luò)基礎(chǔ)設(shè)施,我們就先只看計(jì)算的部分:
每臺(tái) DGX A100 的標(biāo)準(zhǔn)售價(jià)為19.9萬(wàn)美元,Meta 大宗采購(gòu)肯定有折扣,但假設(shè)沒(méi)有折扣的話:RSC 這次 P2 的擴(kuò)容成本,僅顯卡采購(gòu)的部分,就高達(dá)2.5億美元……
當(dāng)然,按照今天的 Meta 市值來(lái)看,這筆費(fèi)用簡(jiǎn)直是九牛一毛。假若真的打造出全世界最大最強(qiáng)最快的 AI 超算,對(duì)于這家公司的業(yè)務(wù),無(wú)論是其現(xiàn)在的核心業(yè)務(wù),還是未來(lái)的元宇宙產(chǎn)品,預(yù)計(jì)都能夠帶來(lái)非常大的幫助。
Meta 是這么說(shuō)的:“最終,我們?cè)?RSC 上面的努力,將能夠?yàn)樽鳛橄乱粋€(gè)關(guān)鍵計(jì)算平臺(tái)的元宇宙鋪就道路。屆時(shí),AI 驅(qū)動(dòng)的應(yīng)用和產(chǎn)品將會(huì)扮演重要的角色?!?/p>
關(guān)鍵詞: meta rsc 模型 ai 數(shù)據(jù)中心 超級(jí)計(jì)算機(jī) 集群 英偉達(dá) 數(shù)據(jù) 算力
網(wǎng)站首頁(yè) |網(wǎng)站簡(jiǎn)介 | 關(guān)于我們 | 廣告業(yè)務(wù) | 投稿信箱
Copyright © 2000-2020 hngelin.com All Rights Reserved.
中國(guó)網(wǎng)絡(luò)消費(fèi)網(wǎng) 版權(quán)所有 未經(jīng)書面授權(quán) 不得復(fù)制或建立鏡像
聯(lián)系郵箱:920 891 263@qq.com
永康市| 漳浦县| 洛隆县| 景宁| 楚雄市| 荆州市| 昭苏县| 鄂托克前旗| 陇南市| 慈溪市| 崇义县| 海盐县| 凭祥市| 南江县| 大余县| 柳河县| 铜陵市| 潜山县| 桃园县| 百色市| 德化县| 宝应县| 若羌县| 云浮市| 卓尼县| 西平县| 阿合奇县| 赫章县| 邵阳市| 延长县| 靖宇县| 湖北省| 垦利县| 广安市| 改则县| 昭觉县| 兴安县| 苏州市| 历史| 隆子县| 五莲县|