恭喜百度滄海?存儲團(tuán)隊(duì)與中國科學(xué)技術(shù)大學(xué)、清華大學(xué)合作的論文《Mantle: Efficient Hierarchical Metadata Management for Cloud Object Storage Services》已正式被計(jì)算機(jī)系統(tǒng)領(lǐng)域頂級學(xué)術(shù)會議 SOSP'25(Symposium on Operating Systems Principles)錄用!
SOSP 與 OSDI 并稱為操作系統(tǒng)與系統(tǒng)軟件領(lǐng)域最具影響力的兩大學(xué)術(shù)會議,是全球計(jì)算機(jī)領(lǐng)域公認(rèn)的最高榮譽(yù)殿堂。本屆 SOSP 共收到 368 篇投稿,最終僅錄用 65 篇,錄取率低至 17.7%,代表了該領(lǐng)域當(dāng)前最前沿、最具影響力的研究成果。
該論文詳細(xì)介紹了百度智能云對象存儲 BOS 的分布式層級 Namespace 系統(tǒng) Mantle 的核心設(shè)計(jì)。Mantle 成功攻克了困擾業(yè)界多年的難題,使得對象存儲 BOS 的層級 Namespace 能夠同時(shí)具備可擴(kuò)展性與高性能,為 AI 時(shí)代的大數(shù)據(jù)上云徹底掃清了障礙。
注:標(biāo) * 為共同一作,其中 Biao Cao 為百度智能云高級架構(gòu)師
傳統(tǒng)對象存儲的困境:層級 Namespace 難逃單機(jī)瓶頸
多年以來,HDFS 一直是大數(shù)據(jù)存儲的代名詞。然而,隨著數(shù)據(jù)規(guī)模的日益增大,其固有缺陷愈發(fā)凸顯:其一,三副本機(jī)制導(dǎo)致存儲成本高昂;其二,單 Namenode 的設(shè)計(jì)將文件規(guī)模限制在數(shù)億級別,難以滿足 AI 時(shí)代單桶百億甚至千億文件的擴(kuò)展性需求;其三,復(fù)雜的運(yùn)維工作對技術(shù)團(tuán)隊(duì)提出了極高要求。
在此背景下,具備「低成本、無限擴(kuò)展、云原生免運(yùn)維」等優(yōu)勢的對象存儲,迅速成為構(gòu)建新一代數(shù)據(jù)湖存儲底座的共識,以支撐更大數(shù)據(jù)規(guī)模的大數(shù)據(jù)計(jì)算業(yè)務(wù)。但一個關(guān)鍵瓶頸橫亙眼前:傳統(tǒng)對象存儲采用的「平坦 Namespace」難以高效支持依賴文件系統(tǒng)語義的大數(shù)據(jù)計(jì)算任務(wù)(如目錄遍歷、遞歸刪除、路徑重命名等),導(dǎo)致其在特定場景下的性能遠(yuǎn)不如 HDFS。
為了彌合這一鴻溝,業(yè)界普遍認(rèn)為,為對象存儲增加「層級 Namespace」能力是必然趨勢。但遺憾的是,主流云廠商的現(xiàn)有方案始終未能擺脫單機(jī)性能瓶頸,其擴(kuò)展性與 HDFS 相比并無本質(zhì)飛躍。
兩大核心挑戰(zhàn):為何高性能的分布式層級 Namespace 如此難解?
構(gòu)建一套面向大規(guī)模對象存儲服務(wù)、真正分布式的層級 Namespace,面臨著兩個長期未被攻克的嚴(yán)峻性能挑戰(zhàn):
長路徑解析開銷巨大:解析一個深層文件路徑,如 /A/B/C/D/file.txt,需要多次網(wǎng)絡(luò)通信,累積延遲極高,嚴(yán)重拖慢計(jì)算效率。傳統(tǒng)的客戶端緩存,在對象存儲基于 Restful API、無狀態(tài) Proxy 的架構(gòu)下難以實(shí)施。而簡單的并行路徑解析方案,在高并發(fā)場景下又因線程過度調(diào)度而引發(fā)資源爭搶,適得其反。
分布式事務(wù)沖突頻發(fā):當(dāng)數(shù)千乃至上萬個計(jì)算任務(wù)并發(fā)地對同一目錄進(jìn)行創(chuàng)建、刪除或重命名操作時(shí),傳統(tǒng)分布式事務(wù)機(jī)制會產(chǎn)生海量的讀寫沖突與重試,導(dǎo)致系統(tǒng)吞吐量斷崖式下跌。即便放寬隔離級別等緩解手段,也難以根治跨目錄重命名等復(fù)雜操作帶來的根本性沖突問題。
正因?yàn)槿绱?業(yè)界一直缺乏一種既能發(fā)揮對象存儲成本與擴(kuò)展性優(yōu)勢,同時(shí)又能媲美 HDFS 性能的真正可擴(kuò)展、高性能的層級命名空間解決方案,導(dǎo)致「對象存儲成為數(shù)據(jù)湖存儲底座」的愿景,在實(shí)際落地中屢屢受阻。
Mantle:全球首個破局者 —— 融合文件和對象存儲的優(yōu)勢,構(gòu)建數(shù)據(jù)湖堅(jiān)實(shí)底座
百度滄海?存儲研發(fā)的 Mantle,正是全球范圍內(nèi)第一個公開的、完整解決上述兩大難題,并成功經(jīng)受了超大規(guī)模生產(chǎn)環(huán)境長期檢驗(yàn)的「分布式層級 Namespace 系統(tǒng)」。
Mantle 創(chuàng)新性地將傳統(tǒng)文件系統(tǒng)的強(qiáng)大語義優(yōu)勢,與新型對象存儲的低成本、可擴(kuò)展、云原生易運(yùn)維特性完美融合,實(shí)現(xiàn)了革命性的突破,為 EB 級別的新一代數(shù)據(jù)湖打開了前所未有的想象空間。
此次入選 SOSP'25 的論文,所闡述的正是這套兼具擴(kuò)展性與卓越性能的方案,它標(biāo)志著對象存儲真正成為云原生數(shù)據(jù)湖的堅(jiān)實(shí)底座。
卓越性能:延遲降低最高 99.1%,吞吐提升最高 115 倍
分布式層級 Namespace 系統(tǒng) Mantle 不僅解決了理論難題,更在實(shí)踐中創(chuàng)造了令人驚嘆的性能表現(xiàn):
極致性能:與 Tectonic、InfiniFS 和 LocoFS 等業(yè)界最新進(jìn)展相比,Mantle 將元數(shù)據(jù)訪問延遲降低了 6.6% 至 99.1%,吞吐量提高了 0.07 倍至 115.00 倍。
業(yè)務(wù)加速:在交互式 Spark 分析場景,作業(yè)完成時(shí)間縮短了 63.3% 至 93.3%。在 AI 驅(qū)動的音頻預(yù)處理任務(wù)中,作業(yè)完成時(shí)間縮短了 38.5% 至 47.7%。
目前,Mantle 已在百度智能云對象存儲 BOS 的生產(chǎn)環(huán)境中大規(guī)模上線超過兩年,提供了成熟可靠的服務(wù)。它為云上眾多客戶的大數(shù)據(jù)分析、人工智能、自動駕駛等關(guān)鍵業(yè)務(wù)提供了堅(jiān)實(shí)、高效的存儲底座。
不止于論文:百度滄海·存儲元數(shù)據(jù)面架構(gòu)的創(chuàng)新故事
關(guān)于 Mantle 論文技術(shù)解讀,以及百度滄海·存儲元數(shù)據(jù)面架構(gòu)的創(chuàng)新故事,后續(xù)將在微信公眾號百度智能云技術(shù)站首發(fā),敬請期待!
申請創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!