DeepSeek又找到突破大模型推理瓶頸的新方法了!
智東西2月27日報(bào)道,昨天,DeepSeek發(fā)布了一項(xiàng)名為DualPath的全新推理系統(tǒng)方案,直指當(dāng)前大語言模型在智能體應(yīng)用場景下遭遇的短板——KV緩存存儲I/O瓶頸。該方案通過引入雙路徑加載機(jī)制,顯著提升系統(tǒng)吞吐量,基本消除了KV緩存的I/O開銷。
DualPath的核心創(chuàng)新在于開辟了一條從存儲直通解碼引擎的新通道。KV緩存不再僅由預(yù)填充引擎加載,而是可以加載至解碼引擎,再通過計(jì)算網(wǎng)絡(luò)中的RDMA高效傳輸至預(yù)填充端。這一設(shè)計(jì)不僅緩解了存儲端的壓力,還避免了網(wǎng)絡(luò)擁塞,確保延遲敏感型任務(wù)不受干擾。
與全局調(diào)度器協(xié)同后,DualPath實(shí)現(xiàn)了動態(tài)平衡兩端負(fù)載,進(jìn)一步提升資源利用率。在真實(shí)智能體工作負(fù)載測試中,DualPath將離線推理吞吐量提升最高達(dá)1.87倍,在線服務(wù)吞吐量平均提升1.96倍。
在大規(guī)??蓴U(kuò)展性方面,DualPath系統(tǒng)在最多1152張GPU上進(jìn)行了驗(yàn)證。離線推理從2P4D(2K智能體)擴(kuò)展到48P96D(48K智能體)實(shí)現(xiàn)近線性擴(kuò)展,任務(wù)完成時(shí)間基本保持一致。
值得一提的是,與之前DeepSeek發(fā)表的許多研究論文類似,這篇論文的第一作者吳永彤同樣是DeepSeek的實(shí)習(xí)生。吳永彤目前在北京大學(xué)攻讀博士學(xué)位,師從金鑫教授,主要研究大模型基礎(chǔ)設(shè)施相關(guān)課題,自2025年8月以來便在DeepSeek系統(tǒng)組工作,曾參與DeepSeek-V3.2的研究。