在中美科技競爭的大背景下,芯片一直是重中之重,說舉國之力也不為過,而以Deepseek為代表的中國公司在芯片被“卡脖子”的情況下,在算法上的突破也獲得了足夠多的關(guān)注,但在這場大模型的全球爭霸賽中,芯片(算力)和模型(算法)之外,還有一個至關(guān)重要甚至稱得上“卡脖子”的領(lǐng)域,卻被國人忽視,那就是AI存儲。
AI 存儲是AI產(chǎn)業(yè)的 “剛需”
公眾一般都知道AI算力靠GPU,GPU尤其是高端GPU是稀缺資源,實際上在AI計算時還有一個“效率中樞”,決定著GPU的運行效率,這就是AI存儲。
大模型訓(xùn)練/推理不只是算力競賽,也是“數(shù)據(jù)管道”競賽:把成山的訓(xùn)練樣本、檢查點(checkpoint)、特征向量在微秒級送進上萬張 GPU。如果存儲端跟不上節(jié)奏,昂貴的 GPU 就會閑著“等數(shù)據(jù)”,高額的算力投資被浪費。
從Google、英偉達、Hugging Face等公司的論文中可以看出,GPU的利用率往往只有50%左右。昂貴的GPU算力在AI計算時大約有一半被浪費,“是可忍孰不可忍”,于是AI產(chǎn)業(yè)界就削尖腦袋加以改進。提高存儲性能,避免讀寫時卡頓就成為“剛需”。
AI存儲是創(chuàng)新技術(shù)的藍海
傳統(tǒng)的存儲技術(shù)并非為滿足當(dāng)今AI訓(xùn)練推理而設(shè)計,現(xiàn)有存儲技術(shù)在面對規(guī)模越來越大的AI訓(xùn)練推理集群時已經(jīng)越來越力不從心。
AI 訓(xùn)練需要處理海量數(shù)據(jù),且數(shù)萬張GPU卡都要共享訓(xùn)練參數(shù)。要保證讀訓(xùn)練數(shù)據(jù)時數(shù)據(jù)流穩(wěn)定,哪怕只有1%的微小抖動,都會導(dǎo)致高達數(shù)百GPU卡頓;AI訓(xùn)練還需要頻繁寫Check Point(相當(dāng)于訓(xùn)練參數(shù)存檔),寫Check Point時這么多GPU同時集中寫,這是傳統(tǒng)存儲系統(tǒng)不會經(jīng)常遇到的情況;在分配訓(xùn)練數(shù)據(jù)時,海量小文件的讀寫是傳統(tǒng)存儲一直未能解決的難題, 有時僅文件列表加載就需耗時數(shù)小時;在推理時,長上下文又有新的存儲需求……華為 MLPerf 測試數(shù)據(jù)顯示,傳統(tǒng)存儲在AI訓(xùn)練場景中 GPU 利用率僅 30%。
因此迫切需要構(gòu)建為AI專門設(shè)計的數(shù)據(jù)存儲架構(gòu),能夠低成本高效率地處理數(shù)據(jù),讓昂貴的算力不再被浪費。
Shared-Everything架構(gòu)撐起300億美元巨頭
分布式存儲是很多臺服務(wù)器(稱為服務(wù)器集群)組成的存儲系統(tǒng)。傳統(tǒng)分布式存儲是Shared-Nothing架構(gòu)的,即數(shù)據(jù)盤屬于存儲服務(wù)器私有。這就像商品都歸本地供銷社管理,每個人只能在本地供銷社買東西,要去買其它地方的商品就必須讓本地供銷社和對方供銷社協(xié)商,將對方貨物調(diào)過來才能買。這種供銷社之間的協(xié)商和調(diào)貨被稱為Cross Talk,是分布式存儲最大的性能瓶頸。
而Shared-Everything架構(gòu)則是數(shù)據(jù)盤在共享存儲池,任何服務(wù)器都可以不經(jīng)過其它服務(wù)器讀寫所有的盤。這就像電商,任何人不管在什么地點都可以直接下單購買,而無需供銷社之間協(xié)商調(diào)貨。Shared-Everything架構(gòu)下數(shù)據(jù)路徑更短,消除了Cross Talk這一性能瓶頸,性能有質(zhì)的飛躍。
美國創(chuàng)業(yè)公司VAST Data宣稱,Shared-Everything是分布式存儲20年來第一次架構(gòu)性創(chuàng)新,傳統(tǒng)Shared-Nothing架構(gòu)正在走向末路。我們可以理解為相當(dāng)于電商會取代供銷社。
VAST Data基于Shared-Everything架構(gòu)的AI存儲系統(tǒng)使得GPU利用率比傳統(tǒng)存儲技術(shù)提升 10–25 %,Checkpoint 時間從 10 分鐘級降到 1分鐘級。數(shù)據(jù)恢復(fù)速度提升 5–8倍,迅速成為了AI存儲市場的獨角獸。該公司2016年成立以來,獲得了包括英偉達在內(nèi)的多輪投資,客戶名單包括馬斯克旗下大模型創(chuàng)企x AI、皮克斯動畫、zoom、谷歌,最新一輪估值更是高達驚人的300億美元。
300億美元估值意味著什么?要知道世界上最大的傳統(tǒng)存儲廠商EMC(也就是常說的“去IOE”中的“E”),2016年EMC被Dell時存儲業(yè)務(wù)價值也不過245億美元。這就像特斯拉的市值超越豐田、奔馳、寶馬等傳統(tǒng)汽車廠商一樣,代表新架構(gòu)對傳統(tǒng)架構(gòu)的超越。同時,這個數(shù)字甚至也超過了中國聯(lián)通的市值。
Shared-Everything是中國原創(chuàng)技術(shù)
雖然Shared-Everything技術(shù)在美國大放異彩,但事實上該技術(shù)卻是中國首創(chuàng)。多年前,中國的IT科學(xué)家王東臨和他領(lǐng)銜的書生公司技術(shù)團隊就發(fā)明了Shared-Everything技術(shù)(當(dāng)時稱為分布式共享存儲技術(shù)),并研發(fā)了基于該技術(shù)的第一代SurFS分布式存儲系統(tǒng),性能非常出色,在當(dāng)時世界上最快的分布式存儲系統(tǒng)性能在500微秒左右時,SurFS提高到了60微秒左右,充分展現(xiàn)了Shared-Everything技術(shù)的優(yōu)越性。
王東臨是得過多項國家級科技榮譽、在中國IT業(yè)歷史上留下多個足印的技術(shù)專家,陸續(xù)發(fā)明了多項國際領(lǐng)先的創(chuàng)新技術(shù),有的(如電子印章技術(shù))已經(jīng)得到廣泛應(yīng)用,有的(如果中國軟件業(yè)首個國際標準)樹立了中國IT業(yè)的里程碑,有的(如Shared-Everything架構(gòu))仍然待字閨中。就在今年,他基于Shared-Everything架構(gòu)設(shè)計的量子模擬機集群也同樣打破了記錄,用兩顆普通CPU跑出了比英偉達8張GPU卡還高的性能;前不久,他還帶領(lǐng)南開大學(xué)人工智能團隊和北京大學(xué)量子神經(jīng)網(wǎng)絡(luò)團隊做出了全球首個基于量子算力實現(xiàn)智能對話的AI大模型成果,其預(yù)印版論文剛剛發(fā)表……
2016年2月,書生公司申請了一批Shared-Everything技術(shù)架構(gòu)的發(fā)明專利,并隨后對第一代SurFS進行了開源,倪光南院士、時任工信部電子信息發(fā)展產(chǎn)業(yè)研究院院長盧山等領(lǐng)導(dǎo)出席了SurFS開源儀式。

開源的意義在于讓公眾都能共享創(chuàng)新成果(尤其是架構(gòu)性的重大創(chuàng)新),讓新技術(shù)能得到更廣泛的應(yīng)用。但開源也會被不勞而獲的同行竊取,經(jīng)常有人調(diào)侃說“美國一開源,中國就有了創(chuàng)新技術(shù)”。但這一次,在書生公司SurFS開源后不久,VAST Data公司成立了;在SurFS開源21個月后,VAST Data“發(fā)明了”Shared-Everything技術(shù),并于2017年11月在美國申請了相關(guān)技術(shù)的專利。根據(jù)知識產(chǎn)權(quán)專業(yè)機構(gòu)的分析,雙方專利高度相似,技術(shù)方案完全覆蓋,屬同一個技術(shù)。
中國原創(chuàng)技術(shù),會被美國用來收割中國嗎?
目前,書生公司已經(jīng)重啟了新一代SurFS技術(shù)的研發(fā),宣稱新技術(shù)在核心技術(shù)指標上將超越VAST Data。日前,書生公司還向?qū)@痔峤涣诵鎂AST Data專利無效的申請。
AI競賽的大幕已經(jīng)拉開,芯片、模型……刀光劍影,電力、基礎(chǔ)設(shè)施枕戈待旦,現(xiàn)在,存儲領(lǐng)域的漁陽鼙鼓聲響起。當(dāng)VAST Data身后集結(jié)了英偉達、迪士尼、谷歌、x AI、chatGPT、CoreWeave等一系列美國AI公司,其客戶名單中還包括NASA和美國能源部時,王東臨、書生公司和他的Shared-Everything專利背后,應(yīng)該有誰?VAST Data數(shù)月前剛在中國設(shè)立了總代理,將來會不會出現(xiàn)美國人用中國技術(shù)卡中國脖子的景象?
責(zé)任編輯: 江曉蓓