中國工程院院士劉韻潔:確定性網絡是中國算力網建設的重要基礎

21世紀經濟報道記者駱軼琪 鄭州報道

作爲AI大生態的一部分,隨着大模型快速發展,“運力”的核心部分網絡傳輸的技術升級訴求也日益迫切起來。

在9月28日舉行的2024中國算力大會上,中國工程院院士劉韻潔在發言時指出,確定性網絡是中國算力網建設的一個重要基礎。

從產業背景來看,今年1月,國家數據局和工信部等17部門聯合印發《“數據要素×”三年行動計劃(2024-2026)》,而數據要素是人工智能最重要的基礎。同月,工信部等七部門聯合印發《關於推動未來產業創新發展的實施意見》,從技術角度明確提出,加強新型網絡架構研究,加快促進關於低時延、智能互聯的要求。7月,黨的二十屆三中全會在公告中首次提出,建設和運營國家數據基礎設施,促進數據共享。數據基礎設施的重要內容就包括網絡、算力、傳輸交換平臺、安全。

劉韻潔指出,隨着AI發展,在智能時代的數據傳遞與計算,對網絡提出三大新挑戰:一是“AI大模型”對算力提出巨大需求,由此對網絡有新需求、新標準,需要1萬個GPU進行協同計算;二是“空間計算”的出現,開啓前所未見的虛擬時代,雖然蘋果發佈的Vision Pro價格高昂,但Meta最新發布的Quest 3S價格在300美元,這類產品對算力與時延同時提出要求,需要提供更高速率、更低時延;三是“具身智能”構築未來工業智能機器人,特斯拉人形機器人Optimus的最終目標是取代人類完成勞動,具備精準操作的能力,這對算力、時延、可靠性提出新要求。

由此,時延敏感型、計算密集型是智能互聯網時代新型網絡業務的兩個最核心特徵。

劉韻潔指出,當前國內算力產業面臨的現狀是,一方面,大模型算力需求激增,算力組網需求迫切,網絡帶寬成爲瓶頸;在過去5年時間,GPU算力增長近90倍,但網絡帶寬僅增長10倍,模型訓練時間也隨之增長。帶寬瓶頸逐漸顯現。

另一方面,廣域算力資源互聯共享需要解決並行協同計算來提升算能;遠程使用算力資源,需要提升傳輸效率、節約傳輸成本。這些都需要確定性網絡提供支撐。

以美國微軟公司爲例,Azure雲遊70%以上的流量都使用RDMA協議,在2023年初步實現80KM廣域RDMA互聯;國內華爲公司也提到,在100GE環境下,8節點的VGG16模型訓練RDMA性能是TCP的8倍多。因此,構建“無損確定性廣域傳輸能力”成爲算力高效傳輸互聯的重要基礎。

同時,國家數據局下發的《數據基礎設施建設(試點試驗)任務書——數據流通方向》中提到,加快推動數聯網數據流通利用基礎設施建設,開展數聯網基礎設施建設任務。在投標方面提出,要求千公里傳輸抖動不高於50微秒,傳輸效率要大於90%、丟包率要小於十萬分之一併支持跨域網絡資源統一調度和編排。

要實現這些指標,沒有確定性網絡技術完成不了。因此確定性網絡是中國算力網建設的一個重要基礎。

從國際態勢看,美國正在構建能源科學網絡(ESnet),這實際上是美國的“科研算力網絡”,其在2022年10月升級到第六代,2023年迅速發佈了第七代,就是因爲發現網絡環境滿足不了算力的需求。

在ESnet網絡的下一步技術和能力規劃中,提到的其中三個目標:端到端的確定性網絡能力;網絡可編程、可重構、可定製;整個網絡資源的一體化調度——這三個能力,中國的團隊都已經實現了。

劉韻潔綜合分析,“以網強算”成爲我國提升綜合算力的新路徑。讓網絡與算力深度融合,構建“全域超級計算機”,讓超算、智算、通算等各類型計算能力,通過計算機總線技術連接在一起,才能更好賦能數字經濟發展。

這就需要確定性網絡體系架構的不斷迭代開發。舉例來說,目前的互聯網只是普通馬路,通過確定性網絡要實現算力網成爲高速公路,進而滿足算力需求。

劉韻潔還指出,目前中國在通用大模型方面與國際領先水平短期內還有差距,但也要重視發展行業大模型。“如果在通用大模型的基礎上,把行業數據訓練好、行業大模型做好,完全可以走出中國自己的道路。”劉韻潔指出。

他分析道,因爲中國的行業數據最爲完整和全面,但這需要政府、企業、資本等多方共同解決課題,纔是真正支持實體經濟、新質生產力發展的必然渠道。