作為云服務(wù)國家隊,中國電信天翼云始終堅持科技創(chuàng)新,在技術(shù)方面不斷取得突破,推出多項研發(fā)成果。作為其中的重要代表,“息壤”入選“2022年度央企十大超級工程”,通過將復(fù)雜的算力資源智能、有序地調(diào)度到目的地,不斷刷新算力傳輸?shù)摹爸袊俣取薄?/p>
《山海經(jīng)注》云:“息壤者,言土自長息無限,故可以塞洪水也?!边M入人工智能時代,“息壤”如同它的名字一般,持續(xù)向智能“生長”,進一步升級為一體化智算服務(wù)平臺,為大模型的快速發(fā)展和落地持續(xù)提供多樣化的算力資源和一體化的智算服務(wù)。
統(tǒng)籌調(diào)度 全網(wǎng)算力“隨愿可得”
數(shù)字時代,以算力為核心的數(shù)字信息基礎(chǔ)設(shè)施成為國家戰(zhàn)略性布局的關(guān)鍵組成部分。但是當前,我國算力分布呈現(xiàn)總量大但分布不均衡的特征,總體需求旺盛與局部算力閑置并存,供需匹配不暢。因此,在全國范圍內(nèi)實現(xiàn)高效的算力統(tǒng)籌和調(diào)度,滿足千行百業(yè)對算力的不同需求,提升全局算力的利用率,成為提升算力“中國速度”的一項重要工程。
為優(yōu)化數(shù)據(jù)中心建設(shè)布局,統(tǒng)籌調(diào)度、高效利用算力資源,2022年2月,國家發(fā)展改革委、中央網(wǎng)信辦等四部門聯(lián)合印發(fā)通知,同意在京津冀、長三角、粵港澳大灣區(qū)、成渝,以及內(nèi)蒙古、貴州、甘肅、寧夏等8地啟動建設(shè)國家算力樞紐節(jié)點,并規(guī)劃了10個國家數(shù)據(jù)中心集群,“東數(shù)西算”工程正式全面啟動。作為算力基礎(chǔ)設(shè)施建設(shè)的排頭兵,中國電信積極貫徹落實“東數(shù)西算”工程和加快構(gòu)建全國一體化算力網(wǎng)的要求,在上海青浦、浙江嘉善、江蘇吳江、廣東韶關(guān)、甘肅慶陽等國家算力樞紐節(jié)點新建了大型數(shù)據(jù)中心,在算力建設(shè)上落實“東數(shù)西算”“東數(shù)西備”“東數(shù)西存”,助力提升資源利用率和算力算效。同時充分發(fā)揮電信運營商的網(wǎng)絡(luò)資源稟賦,推進以DC為中心組網(wǎng),提升國家樞紐節(jié)點網(wǎng)絡(luò)互聯(lián)能力,構(gòu)建四區(qū)六軸八樞紐多通道的低時延光纜網(wǎng)底座,持續(xù)深化區(qū)域一體化組網(wǎng),同步加快新型云化城域網(wǎng)建設(shè),全面滿足一體化算力網(wǎng)1ms/5ms/20ms時延要求,全方位打造支撐“東數(shù)西算”戰(zhàn)略落地所需的大帶寬、低時延、智能敏捷、安全可靠的網(wǎng)絡(luò)基礎(chǔ)設(shè)施。
作為國家云,天翼云在優(yōu)化算力資源配置、提升資源使用效率方面做出一系列努力,自主研發(fā)的“息壤”平臺應(yīng)運而生,為算力的高效統(tǒng)籌和調(diào)度提供了解決方案。
通俗來講,“息壤”好比是一個算力傳輸?shù)臉屑~,能夠在全國范圍內(nèi)實現(xiàn)每分鐘數(shù)萬次、每天上千萬次的算力統(tǒng)籌調(diào)度,滿足千行百業(yè)對算力的需求,讓算力像水和電一樣即取即用、“隨愿可得”?!跋⑷馈蓖ㄟ^把多方算力匯集到一個平臺,實現(xiàn)一體化供給,具備對多服務(wù)商異構(gòu)算力的跨區(qū)域調(diào)度能力,支持對通用計算、智算、超算和網(wǎng)絡(luò)進行一體化調(diào)度,降低算力使用成本。
基于“息壤”強大的算力調(diào)度能力,智慧教育資源隨時共享,讓偏遠地區(qū)的孩子也能像大城市的孩子一樣享受優(yōu)質(zhì)的教學(xué)資源;在汽車工業(yè)領(lǐng)域,300次的仿真碰撞試驗在一分鐘內(nèi)便能成功模擬完成……從市民生活到工業(yè)生產(chǎn),從城市中心到偏遠地區(qū),“隨愿可得”的算力賦能千行百業(yè),走入千家萬戶,重塑著每個人的生活。
云智一體 大模型訓(xùn)推“一步到位”
科技不斷向前發(fā)展,我們迎來了人工智能時代。當前,人工智能行業(yè)進入以大模型為代表的快速發(fā)展階段,國產(chǎn)多模態(tài)大模型爆發(fā)式更新,AI應(yīng)用有望迎來更多功能和形態(tài)方面的突破升級,未來發(fā)展空間廣闊。
但大模型的研發(fā)與推廣仍然面臨一定的壓力和挑戰(zhàn)。一方面,大模型的訓(xùn)練和應(yīng)用需要大量的高質(zhì)量數(shù)據(jù),當前我國數(shù)據(jù)資源有限且分散,導(dǎo)致模型訓(xùn)練效果并不理想;另一方面,模型的參數(shù)量和計算復(fù)雜度持續(xù)增加,對算力的需求以幾何級數(shù)增長。
作為云服務(wù)國家隊、數(shù)字中國建設(shè)主力軍,天翼云順勢而為,積極響應(yīng)國家政策號召,布局智算基礎(chǔ)設(shè)施建設(shè),為人工智能產(chǎn)業(yè)發(fā)展筑牢算力基石。為滿足大模型的市場需求和變化,天翼云能力全面升級,構(gòu)建“息壤”一體化智算服務(wù)體系和能力,提供極致的算力調(diào)度、高效的計算加速、普惠的一站式智算服務(wù)。
在算網(wǎng)調(diào)度能力方面,“息壤”在三方面取得顯著技術(shù)突破。通過算力插件和算力網(wǎng)關(guān),實現(xiàn)了算力的統(tǒng)一、高效和云化接入;通過算數(shù)協(xié)同和多級算力互聯(lián)調(diào)度,實現(xiàn)了算數(shù)網(wǎng)的一體化調(diào)度,數(shù)隨算走、算隨數(shù)動,調(diào)度區(qū)域更廣,算力更泛在;借助大模型認知能力和業(yè)務(wù)調(diào)度,實現(xiàn)算力選擇和應(yīng)用部署簡單化,故障自動恢復(fù)與負載均衡,使算力簡便易用。
基于技術(shù)突破和產(chǎn)品化應(yīng)用,“息壤”可服務(wù)于三大算力場景。一是天翼云自營公共算力服務(wù)平臺,目前已接入超40家算力伙伴,實現(xiàn)三方各類算力可調(diào)度22EFlops,顯著擴大了算力規(guī)模和品類,滿足公有云客戶的多元算力需求。二是幫助客戶構(gòu)建行業(yè)算力互聯(lián)網(wǎng),例如高校算力聯(lián)盟等,實現(xiàn)行業(yè)內(nèi)算力利用率的有效提升。三是助力建設(shè)城市算力互聯(lián)網(wǎng),實現(xiàn)區(qū)域內(nèi)多方算力的一體化統(tǒng)籌調(diào)度,助力地方經(jīng)濟和產(chǎn)業(yè)發(fā)展。
在異構(gòu)計算能力方面,“息壤”具備高效的異構(gòu)計算能力,能夠破解大模型訓(xùn)練推理中面臨的大算力、高性能、高穩(wěn)定需求等挑戰(zhàn)。在大算力需求方面,天翼云建立PB級并行文件存儲,并組建低延時超大規(guī)模RDMA網(wǎng)絡(luò),通過計算、內(nèi)存和通信的多維優(yōu)化,提升綜合算效。在性能方面,自研AI框架、算子加速庫、集合通信庫、網(wǎng)絡(luò)拓撲感知、存儲加速等關(guān)鍵技術(shù),將國產(chǎn)算力的綜合算效提升到行業(yè)領(lǐng)先水平。在穩(wěn)定性方面,通過多項指標的監(jiān)控分析,實現(xiàn)故障訓(xùn)前發(fā)現(xiàn),有效控制大模型訓(xùn)練中斷恢復(fù)時長,實現(xiàn)訓(xùn)練任務(wù)長期穩(wěn)定、高可用運行。此外,天翼云基于國產(chǎn)萬卡智算集群和自研智算平臺,已具備支撐萬億參數(shù)基礎(chǔ)大模型訓(xùn)練的能力。
在訓(xùn)推服務(wù)能力方面,“息壤”一站式的訓(xùn)推服務(wù)能力,可降低大模型應(yīng)用創(chuàng)新開發(fā)門檻,實現(xiàn)了業(yè)界首個國產(chǎn)芯片萬卡并行訓(xùn)練。平臺預(yù)置行業(yè)數(shù)據(jù)集、主流開閉源基礎(chǔ)大模型,并提供模型訓(xùn)練全棧工具鏈,將大模型精調(diào)場景簡化操作至選數(shù)據(jù)、選硬件和選模型三個步驟,簡化部署、提升效率;通過自研AI框架、3D并行加速、自研訓(xùn)練加速庫、容器調(diào)度優(yōu)化等核心技術(shù),大幅提升訓(xùn)練效率;通過模型量化壓縮、自研推理加速算子庫、自研AI推理加速框架等核心技術(shù),顯著提高推理效率;通過全鏈路故障檢測、定位、告警,全鏈路日志監(jiān)控與可視化、斷點續(xù)訓(xùn)快速恢復(fù)等核心技術(shù),提升大規(guī)模集群訓(xùn)推穩(wěn)定性。其中,斷點續(xù)訓(xùn)實現(xiàn)分鐘級發(fā)現(xiàn)、定位、恢復(fù),覆蓋75%的故障場景,支持優(yōu)雅容錯無感恢復(fù),MFU(算力利用率)達業(yè)界領(lǐng)先水平。
在近期公布的2024IOMM數(shù)智化轉(zhuǎn)型最新評估結(jié)果中,天翼云息壤·一站式智算服務(wù)平臺在模型管理、模型開發(fā)、模型訓(xùn)練、模型推理、資源調(diào)度、性能等11個能力領(lǐng)域35個測試項中全部通過,以“卓越級”能力通過評估。
人工智能已經(jīng)成為數(shù)字經(jīng)濟發(fā)展的新引擎。作為云計算原創(chuàng)技術(shù)策源地、數(shù)字中國建設(shè)主力軍,天翼云將持續(xù)攻關(guān)云計算領(lǐng)域核心技術(shù),不斷迭代升級“息壤”一體化智算服務(wù)體系和能力,賦能企業(yè)跑出“AI加速度”,攜手行業(yè)共同推動經(jīng)濟社會智能化水平邁向新高度。