算力部署新趨勢:計算網絡化新賽道
作為大國競爭、產業創新、技術融合的必然趨勢,計算機網絡化以算網融合為目標,提出了算力多元分散、網絡廣域互聯、資源彈性供給、服務多維一體、應用規模部署等能力要求。
根據IDC公司的統計,截至2022年年底,包括高性能計算中心、超算中心、智算中心,以及大規模數據中心在內的全球主要算力中心,算力資源利用率都不足15%。在亟須大力發展算力的背景下,這一問題顯得尤為突出。這主要是因為傳統的算力中心部署并未考慮最終用戶的實際需要,簡化剛性的基礎網絡連接未能感知上層應用的算力服務需求,最終在算力供需方面出現了嚴重失衡和“算力孤島”現象。為了解決總體資源相對不足,局部資源相對冗余的現象,ICT(信息和通信技術,Information and Communications Technology)行業出現了計算網絡化的發展趨勢。本文聚焦計算網絡化這一主題,從國家戰略、行業發展、技術演進三個方面入手,剖析計算網絡化的發展背景,提煉計算網絡化的概念和內涵,圍繞其技術實現和部署實踐,概述計算網絡化的發展現狀,最后給出發展建議。算力競賽一直以來都是各國加速信息化升級,搶占技術布局的重點方向。隨著“計算+網絡”融合發展的不斷深入,世界主要國家紛紛加大投入,在計算網絡化方面,以新型計算基礎設施為核心,掀起新一輪的國家競賽。美國自2020年開始,先后出臺了《引領未來先進計算生態系統戰略計劃》《2021年美國創新與競爭法案》(S.1260)等戰略文件,明確提出要綜合構建覆蓋“政產學研”的國家級算力新體系和全境覆蓋的高速寬帶網絡。歐洲于2021年3月發布了《2030年數字指南針》規劃(《2030數字指南針:歐洲數字十年之路》),目標是到2030年加速部署1萬個邊緣節點,推動75%的歐洲企業使用云計算服務、大數據和人工智能服務,全面保持歐盟在數字經濟新賽道上的領先優勢。中國政府高度重視算網基礎設施的發展機遇?!笆奈濉逼陂g,我國先后在“數字中國”戰略、“新型基礎設施”建設計劃、“東數西算”戰略等國家級建設指導文件中,明確了要發力算力網絡,加快全國性算力網絡樞紐的建設進程,進而系統性優化計算基礎設施的整體布局,打通數字基礎設施的發展大動脈。為全面解決算力供需不平衡、全局利用效率低的行業痛點,彈性化算力連接和整體化算力調度技術成為ICT行業創新發展的新錨點。面臨指數級增長的科學數據、全球化的科學協作、無處不在的計算,以及由此產生的對數據傳輸、存儲和共享的需求,傳統的科學計算面臨存不下、傳不動、算不及、難共享等問題。科學大裝置/科研設備攻關亟須支持“大算力+大連接”的融合設施。2022年5月,鵬程實驗室在國家相關部門的指導之下,正式啟動了“中國算力網”的發展計劃,明確要“像建設電網一樣發展國家算力網,像運營互聯網一樣運營算力網,讓用戶像用電一樣使用算力服務”。2022年7月,在中國算力大會上,濟南人工智能計算中心、青島人工智能計算中心、武漢超算中心正式接入“中國算力網”,中國算力網絡發展邁出關鍵一步。通信行業是推動算力連接技術創新,加快算力調度服務升級的主力軍。以“云網/算網一體”為目標,國內三大基礎運營商先后啟動了全局性發展戰略,全面提升數字化承載能力。其中,中國電信以“云網融合2030”為發展目標,積極布局“云+網”,發力計算、存儲等一系列關鍵核心技術,2023年成功上線了一系列算力調度平臺;中國移動以公司數智化轉型、高質量發展為目標,全面發力網、云、數、智、安、邊、端、鏈等多要素融合。2023年,中國移動成功發布了梧桐大數據分布式協同計算平臺;中國聯通以CUBE-Net 3.0為目標,全面構建融合計算、存儲、傳送資源的算網一體目標架構,2023年正式上線了“粵港澳大灣區算力調度平臺”,助力大灣區大數據中心的數字化建設。從技術角度看,如何便捷地獲取并使用算力,一直是IT領域發展的關鍵目標。計算網絡化的概念起源自20世紀80年代計算機網絡的出現,彼時的計算網絡化強調通過網絡連接分散的計算機,匯聚網絡連接的各類硬件和軟件資源,形成能力更為強大的計算系統。歷經40年的發展,計算網絡化經過了三個發展階段,即單機獨立運算階段、域內規模互聯階段、跨域全面互聯階段。以分布式計算的出現為第一個斷代點,計算網絡化的發展起點是以個人電腦和工作站為代表的單機獨立運算階段。這一階段的計算設備和網絡設備獨立發展,以CPU、DSP、FPGA等為代表的計算芯片支撐了這一階段的算力發展。第二階段就是以集群規模計算為主要特征的域內規?;ヂ撾A段。這個時期,計算網絡化通過域內網絡進行連接,可以形成規模更大的算力系統。從服務器集群到大規模集群,隨著域內算力規模的不斷增大,集群管理技術也不斷增強,隨之也帶來集約化、能耗高,以及“算力孤島”等問題,進而推動了第三個階段的發展。第三個階段,就是以標準化算力接入+一體化算力服務于一體的跨域全面互聯階段。這個時期,不同類型的算力中心,利用域間高速互聯網絡,實現多元一體的復雜算力系統。這個階段包括了超算算力、智算算力、云算力、邊緣算力等在內的各類算力,通過標準化的接口,借助IPv6+、算力網絡、SD-WAN等先進網絡技術,實現跨域全面互聯,并提供一體化的算力服務,真正落實了計算網絡化的發展目標。計算網絡化以算網融合為最終目標,旨在利用高質量互聯網絡連接算力軟硬件資源,構建算力規模更大、服務能力更強的算力系統,其本質是一種算力資源服務。未來企業客戶或者個人用戶不僅需要網絡和云,也需要靈活地把計算任務調度到合適的地方。計算網絡化是算網融合發展的重要趨勢、必然路徑與發展階段。計算網絡化應滿足以下幾個條件。從基本內涵方面看,計算網絡化強調以計算服務為核心,網絡是算力服務的基礎。從呈現形式方面看,計算網絡化最終要構建一個算力全面互聯的一體化算力服務平臺/系統。從能力主體方面看,計算網絡化依賴于各類算力設備與多元算力中心提供的算力服務能力。從以網助算方面看,計算網絡化利用高質量互聯網絡保障計算服務過程中的網絡質量,并可通過網絡的調度與優化,提升應用執行效率。一是算力多元分散。算力多元分散特征指的是算力資源不再集中于單一的算力中心,而是分散在多個地方,具有異構多樣的特點,并且在不同的算力中心之間,算力資源角色也不盡相同。在算力中心內部,不同體系架構的計算硬件相互協作,滿足不同計算需求。二是網絡廣域互聯。網絡廣域互聯是計算網絡化的一個重要特征,它指的是計算網絡中不同算力中心之間可以通過高速網絡連接實現互通,同時還能夠在多方面廣域協同互聯的基礎上更好地實現資源共享、任務協同等目標。在高速網絡連接方面,算力中心之間需要建設高速網絡,以保證計算任務的高效執行和數據的快速傳輸。其中,高帶寬和低延遲是最重要的指標要求。三是資源彈性供給。資源彈性供給特征是指基于資源虛擬化技術實現跨域資源聚合,并能夠根據用戶需求和應用負載等因素實現資源的彈性調度和供給。在資源聚合方面,計算網絡化利用虛擬化技術實現計算、存儲、網絡的資源聚合。計算網絡化中的云化環境通常采用資源虛擬化技術,將分布在不同地方的物理資源匯聚成虛擬的資源池,以便于用戶快速獲取和使用資源。在彈性調度方面,計算網絡化中的云化環境通常可以根據用戶需求和應用負載等因素,實現資源的彈性供給和調度。四是服務多維一體。服務多維一體特征是指計算網絡化中的算力服務從單節點多層次供給模式向多節點一體化服務平臺模式轉變,最終實現算力服務的多維一體。在一體化算力服務方面,基于網絡互聯互通和資源協同共享,計算網絡化要求構建跨各類算力中心的一體化算力服務能力。借助這種服務,算力用戶可以通過統一的算力服務平臺,根據地理位置、資源類型、配套軟件等不同因素進行選擇,快速構建應用。五是應用規模部署。應用規模部署特征是指行業應用從定制化的應用按需部署方式轉向規?;膽梅植际讲渴鸱绞?,實現應用的規?;挽`活部署。在應用按需部署方面,算力用戶可以根據地理位置、數據存儲位置、資源類型、開發環境等各類因素,選擇合適的算力中心快速部署應用。服務提供商可以將應用部署運行在不同的算力中心上,不同算力中心的應用可以按需進行協同聯動,滿足不同地區的用戶需求。在應用分布式部署方面,針對計算量大且存在跨域協作需求的應用,可以將應用分解為多個計算任務,由不同的算力中心協同計算。總之,從幾個階段和計算網絡的條件來看,在技術驅動之下,技術融合成為必然趨勢。計算網絡化的技術實現包含了邊緣計算、高性能計算云、分布式云、霧計算等多種新興技術手段。這里,以邊緣計算為例,分析一下邊緣計算與計算網絡化的關系。邊緣計算是一種典型的計算網絡化技術。通過聚合分散邊緣計算節點的異構算力資源,邊緣計算以網絡連通云、邊、端,實現協同聯動,基于資源虛擬化技術實現資源的池化和統一分配,提供數字化、網絡化、智能化服務,邊緣計算涵蓋計算網絡化等多項特征。在算力多元分散方面,邊緣計算的算力資源廣泛分布且多元異構,并且邊緣計算具備云邊協同、邊邊協同、云邊端一體化等多種服務模式,算力中心角色多樣,可滿足用戶差異化、定制化需求。在網絡廣域互聯方面,單一邊緣計算節點的算力資源規模有限,因此往往采用云邊、邊邊協同的服務模式,以高速網絡連接為基礎,協同利用多算力中心的算力資源,向用戶提供低時延、多樣化的服務能力。在資源彈性供給方面,邊緣計算以虛擬化技術為基礎,實現分散異構資源的池化,進而支撐資源的統一管理與彈性調度。在服務多維一體方面,邊緣計算與5G、人工智能等新一代ICT融合創新,提供高效算力、海量接入、安全防護、智能分析等融合服務能力。在應用規模部署方面,邊緣計算的算力資源有限,通常采用按需部署模式,以合理利用算力資源、滿足用戶的定制化需求。隨著計算網絡化的戰略布局和試點部署不斷深入,算力產業涉及的設備提供商、電信服務商和算力提供商紛紛行動起來,形成了百花齊放的產業生態。其中,設備提供商不斷延展新業態,設備形態趨于一體融合。主流的IT設備商、CT設備商、感知及智能終端設備商不斷迭代新的技術,最大程度提升和釋放設備算力,提升設備的計算能力和傳輸能力。為了最大程度減少因為數據傳輸和計算任務協同帶來的設備性能損耗,設備提供商積極轉變思路,研發具有確定傳輸、高效計算、數據安全等功能的一體化可編程設備,實現新型設備對計算、傳輸,以及存儲資源的一體化管理和調度。電信服務商加速探索新模式,全面升級網絡服務模式?;A電信服務商以移動邊緣計算為網絡服務升級的重要抓手,依托自有的骨干網絡IP技術,將算力服務快速下沉到用戶側,為用戶提供優質的算力服務,并提出“算力平臺+算力連接”的服務新模式。增值網絡服務商則利用自身在網絡建設和運營方面的優勢,結合新的技術和業務模式,面向視頻直播、自動駕駛、家庭娛樂等場景,為用戶提供多層次、多粒度的增值網絡服務。算力提供商發力算力連接,打造彈性高效的算力服務。從通用算力服務商、智能算力服務商到高性能計算服務商,算力供給側全面發力算力連接網絡,通過自建網絡或者與運營商合作的方式,提高自身算力利用率。其中,“分布式云”“超算互聯網”“多云互聯”等新型網絡架構成為算力供給側新的關注點??傮w上看,強調多個層面算力分解和實時彈性服務的“云-邊-端”架構行業認可度較高。面向前沿科技創新和全局算力部署,在未來算力需求持續增加的背景下,計算網絡化的部署實踐已經遍布各個領域。在超算互聯網方面,超級計算是推進大科學計劃和大科學工程研發的重要支撐。然而,由于對網絡技術的投入差距,在超算應用和超算服務等方面,我國與發達國家仍存在很大距離。2023年4月,科技部正式啟動了“超算互聯網”項目。超算互聯網是以互聯網的思維運營超算中心,并連接產業生態中的算力供給、應用開發、運營服務、用戶等各方資源,構建一體化超算算力網絡和服務平臺。預計到2025年年底,國家超算互聯網將可形成技術先進、模式創新、服務優質、生態完善的總體布局。在智能制造-智能質檢方面,由于計算機、通信、消費類電子等3C產品通常對精密度和外觀要求非常高,而微小結構件檢測產量大、人力耗用巨大,缺陷類型多、數據難以收集。因此,傳統的人工檢測已經成為制造業效率提升和成本降低的瓶頸。為解決這一挑戰,工業領域開始規?;渴鹬С钟嬎憔W絡化的工業AI質檢解決方案,即通過邊緣計算技術對5G傳輸來的數據進行實時分析處理,借助機器視覺+人工智能深度學習算法提取關鍵特征指標,保障工廠生產效率的同時,實現無人化質檢。作為一個新領域和新方向,計算網絡化仍然需要整合“政產學研用”各方力量,形成合力。對此,本文有以下幾點建議。一是建立健全標準體系,引導計算網絡化良性發展。當前,各國家均將計算網絡化作為重要戰略部署,但各類算力服務能力差異明顯、服務質量良莠不齊。構建完善的計算網絡化標準體系,通過健全的服務能力與服務質量評價標準,對云算力、超算算力、智能算力、邊緣算力等不同算力體系進行整合統一,是引導計算網絡化良性、規范發展的基本前提和根本保障。二是加速構建網絡基礎設施,推進算力全面互聯。與發達國家相比,我國網絡基礎設施的建設部署嚴重滯后,現有網絡資源不足。結合SDN/NFV、SD-WAN、算力網絡等未來網絡技術,建立跨地域算力中心高速互連網絡基礎設施,改善算力中心之間的網絡互連條件,提升環境網絡互連的性能和數據傳輸的安全性,是實現算力全面互聯、協同的重要基礎。三是夯實計算網絡化技術底座,實現多元算力一體協同。計算網絡化發展匯聚多元泛在算力,提供一體化算力服務,在滿足用戶差異化需求的同時,也帶來了多元算力異構和跨域算力協同的挑戰。需要積極開展計算網絡化技術體系研究,突破跨域協同計算架構、異構算力統一管理與調度等關鍵技術,以加速計算網絡化發展,支持多元泛在算力一體化、協同化服務。