在計(jì)算機(jī)網(wǎng)絡(luò)領(lǐng)域的國際頂級學(xué)術(shù)會議——ACM SIGCOMM 2024和USENIX NSDI 2024上,騰訊公司連續(xù)取得突破,共有五項(xiàng)前沿網(wǎng)絡(luò)技術(shù)研究成果被接收并發(fā)表。這一成就不僅彰顯了騰訊在計(jì)算機(jī)軟件與網(wǎng)絡(luò)技術(shù)服務(wù)領(lǐng)域雄厚的研發(fā)實(shí)力,也標(biāo)志著中國科技企業(yè)在全球基礎(chǔ)技術(shù)研究,特別是在軟件定義網(wǎng)絡(luò)(SDN)、數(shù)據(jù)中心網(wǎng)絡(luò)、可編程網(wǎng)絡(luò)等核心方向,已進(jìn)入國際領(lǐng)先梯隊(duì),正從技術(shù)應(yīng)用者向原始創(chuàng)新驅(qū)動者轉(zhuǎn)變。
這五項(xiàng)成果聚焦于解決超大規(guī)模數(shù)據(jù)中心與云計(jì)算環(huán)境下的關(guān)鍵性能與效率瓶頸,體現(xiàn)了騰訊將前沿學(xué)術(shù)研究與產(chǎn)業(yè)實(shí)際需求深度融合的技術(shù)路徑。
成果一:超低時(shí)延、高吞吐的數(shù)據(jù)中心網(wǎng)絡(luò)傳輸協(xié)議優(yōu)化
該項(xiàng)研究針對現(xiàn)有TCP等協(xié)議在高速RDMA網(wǎng)絡(luò)中的不足,提出了一種全新的擁塞控制與流量調(diào)度算法。它通過精細(xì)化的端到端感知與智能預(yù)測,在極端高并發(fā)、突發(fā)流量的場景下,實(shí)現(xiàn)了接近理論極限的傳輸效率與近乎恒定的超低時(shí)延,為高性能計(jì)算、AI訓(xùn)練、金融交易等對網(wǎng)絡(luò)延遲極度敏感的核心業(yè)務(wù)提供了堅(jiān)實(shí)的底層支撐。
成果二:基于可編程交換機(jī)的網(wǎng)絡(luò)故障智能診斷與自愈系統(tǒng)
面對數(shù)據(jù)中心網(wǎng)絡(luò)規(guī)模日益龐大、拓?fù)淙遮厪?fù)雜帶來的運(yùn)維挑戰(zhàn),該研究創(chuàng)新性地利用P4等語言賦予的數(shù)據(jù)平面可編程能力,設(shè)計(jì)了一套實(shí)時(shí)、精準(zhǔn)的網(wǎng)絡(luò)故障檢測、定位與輕量級自愈框架。系統(tǒng)能在微秒級內(nèi)感知異常并觸發(fā)預(yù)置的修復(fù)邏輯,大幅縮短了平均故障恢復(fù)時(shí)間(MTTR),提升了整個(gè)數(shù)據(jù)中心服務(wù)的可用性與可靠性,是“自動駕駛網(wǎng)絡(luò)”理念的重要實(shí)踐。
成果三:面向異構(gòu)算力集群的統(tǒng)一高效互聯(lián)架構(gòu)
隨著AI大模型訓(xùn)練、科學(xué)計(jì)算等任務(wù)推動CPU、GPU、NPU等多種異構(gòu)算力協(xié)同工作,算力集群內(nèi)部的通信成為新的性能瓶頸。該研究提出了一種軟硬件協(xié)同設(shè)計(jì)的互聯(lián)架構(gòu),通過創(chuàng)新的網(wǎng)絡(luò)協(xié)議棧和資源調(diào)度策略,屏蔽底層硬件差異,為上層應(yīng)用提供統(tǒng)一、高效、可擴(kuò)展的通信抽象,顯著提升了異構(gòu)算力整體的利用率和任務(wù)執(zhí)行效率。
成果四:廣域網(wǎng)(WAN)流量工程與資源調(diào)度的強(qiáng)化學(xué)習(xí)模型
管理全球分布的多個(gè)數(shù)據(jù)中心之間的流量(WAN流量)是一項(xiàng)成本高昂且復(fù)雜的任務(wù)。該研究將深度強(qiáng)化學(xué)習(xí)(DRL)應(yīng)用于WAN流量工程,構(gòu)建了一個(gè)能夠持續(xù)學(xué)習(xí)網(wǎng)絡(luò)狀態(tài)變化、業(yè)務(wù)需求波動以及鏈路成本的自適應(yīng)調(diào)度模型。該模型能動態(tài)優(yōu)化流量路徑,在保障關(guān)鍵應(yīng)用服務(wù)質(zhì)量(QoS)的前提下,實(shí)現(xiàn)帶寬資源利用的最優(yōu)化和運(yùn)營成本的最小化。
成果五:安全與隱私保護(hù)增強(qiáng)的可編程網(wǎng)絡(luò)數(shù)據(jù)平面
在可編程網(wǎng)絡(luò)帶來靈活性的其安全性也面臨新挑戰(zhàn)。該研究著眼于數(shù)據(jù)平面本身的安全加固,設(shè)計(jì)了一套內(nèi)生于可編程交換芯片的輕量級安全原語與執(zhí)行機(jī)制。它能夠在高速轉(zhuǎn)發(fā)的對數(shù)據(jù)包進(jìn)行高效的加密狀態(tài)驗(yàn)證、異常流量過濾和隱私敏感信息脫敏處理,為云上多租戶環(huán)境提供了從硬件底層出發(fā)的、更高等級的安全隔離與保障。
技術(shù)服務(wù)的產(chǎn)業(yè)價(jià)值與展望
這些發(fā)表于SIGCOMM和NSDI的成果,絕非停留在紙面的學(xué)術(shù)構(gòu)想。它們根植于騰訊云遍布全球的超大規(guī)模數(shù)據(jù)中心和豐富業(yè)務(wù)場景的錘煉,其核心思想與技術(shù)模塊已逐步融入騰訊云的網(wǎng)絡(luò)產(chǎn)品與服務(wù)中,轉(zhuǎn)化為提升云服務(wù)性能、穩(wěn)定性和安全性的直接動力。例如,更快的網(wǎng)絡(luò)意味著更短的AI模型訓(xùn)練時(shí)間,更智能的運(yùn)維意味著更穩(wěn)定的在線服務(wù),更高效的廣域網(wǎng)調(diào)度意味著更低的客戶成本。
此次五項(xiàng)成果齊獲認(rèn)可,是騰訊長期堅(jiān)持投入基礎(chǔ)研究、構(gòu)建“產(chǎn)學(xué)研用”閉環(huán)的縮影。它表明,頂尖的互聯(lián)網(wǎng)科技企業(yè)正在成為推動全球計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)演進(jìn)的重要力量。隨著算網(wǎng)融合、智算網(wǎng)絡(luò)等趨勢深入,騰訊將繼續(xù)深耕網(wǎng)絡(luò)技術(shù)“無人區(qū)”,通過持續(xù)的基礎(chǔ)軟件與技術(shù)服務(wù)的創(chuàng)新,不僅為自身海量業(yè)務(wù)與騰訊云客戶賦能,也為全球計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)社區(qū)貢獻(xiàn)更多源自中國的智慧與方案。