大陆一级毛片免费视频观看i,一级黄色在线播放,a毛片成人免费全部播放,a级毛片免费高清视频,12至16末成年毛片高清,中文毛片,亚洲欧美日韩综合精品网

同花順 Logo
AIME助手
問財助手
拒絕 OpenClaw 成為「吞金龍蝦」,百度百舸打造極致 KV Cache 調(diào)度與加速引擎利好
2026-04-02 15:26:21
來源:IT之家
分享
文章提及標(biāo)的
百度集團(tuán)-SWR--
周期--
5G--
Block--

2026 開年,OpenClaw 的現(xiàn)象級爆發(fā)使大模型迅速邁入「超長上下文」時代。在幾乎人人手捧「龍蝦」穿梭于代碼、搜索、辦公自動化的當(dāng)下,Token(詞元)消耗成本正在迅速累積。據(jù) OpenRouter 平臺數(shù)據(jù),2026 年 3 月單周 OpenClaw Token 消耗量占平臺總量的 20%。用戶實測單個會話的上下文可膨脹至 23 萬 Token;重度使用場景的月成本甚至高達(dá) 800-1500 美元。

這背后,是 Agent 架構(gòu)的全量記憶策略 —— 每一輪對話請求都必須攜帶歷史上下文,導(dǎo)致 Token 消耗隨輪次呈滾雪球式增長。

此時,KV Cache 的管理方式便成為影響推理效率與成本的關(guān)鍵變量。若無法有效復(fù)用歷史 KV Cache,系統(tǒng)將重復(fù)執(zhí)行 Prefill 計算 —— 不僅帶來了不必要的 Token 成本花銷,也會顯著拉長首 Token 時延(TTFT)。因此,通過提升上下文緩存命中率來降低用戶使用成本以及通過減少重復(fù) Prefill 計算來降低 TTFT,成為 KV Cache 優(yōu)化的核心方向。

百度(K89888)智能云旗下百度(K89888)百舸團(tuán)隊近日推出了一套自主研發(fā)的 KV Cache 系統(tǒng) —— AttentionStore,并基于昆侖芯 P800 在 DeepSeek 模型上完成系統(tǒng)驗證:在 8K+ 長上下文場景中,TTFT 實現(xiàn)了 2 至 5 倍的性能提升;而在 64K 長上下文場景下,TTFT 性能提升至 6.2 倍,顯著增強(qiáng)了大模型在長上下文歷史條件下的 Token 響應(yīng)能力。

顯存瓶頸:長上下文推理的隱形天花板

在當(dāng)前主流推理引擎(如 SGLang、vLLM 等)中,KV Cache 通常被視為一種僅存在于顯存中的短生命周期(883436)數(shù)據(jù)結(jié)構(gòu)。其設(shè)計目標(biāo)很明確:在一次請求的解碼階段復(fù)用歷史 Key / Value,避免重復(fù)計算;一旦請求結(jié)束或被調(diào)度器回收,KV Cache 便會被整體釋放,以保證顯存能夠服務(wù)更多并發(fā)請求。

然而,隨著多輪對話等長上下文場景的興起,推理系統(tǒng)中所能容納的 KV Cache 體量逐漸成為了決定系統(tǒng)性能的核心變量。此時,僅依靠顯存承載的 KV Cache 體量遠(yuǎn)遠(yuǎn)不能滿足長下文推理場景下的會話響應(yīng)要求。

要準(zhǔn)確評估 KV Cache 存儲的瓶頸,就需要綜合分析「單個 Token 所需的 KV 緩存開銷」、「可存放 KV Cache 的顯存容量」、以及「長上下文的會話長度」。

當(dāng)前,KV 緩存的計算公式與模型規(guī)模、模型層數(shù)、數(shù)據(jù)精度、以及所采用的注意力頭結(jié)構(gòu)相關(guān)。以 Qwen3-32B 模型為例,其采用 GQA 結(jié)構(gòu),在 FP16 精度下,單 Token 所需的 KV 緩存開銷約為 0.25MB,對于一個 80GB 顯存的加速卡來說,除去模型權(quán)重需占用的 60GB 以及 runtime buffer、臨時算子、并發(fā)數(shù)等占用的約 5g(885556)B~10GB 后,僅剩余的 10GB 顯存最多容納約 40K Tokens。

而以 LLaMA-13B 模型為例,其采用 MHA 結(jié)構(gòu),在 FP16 精度下,單 Token 所需的 KV 緩存開銷約為 0.8MB,在 80GB 顯存的加速卡中,僅剩余的 40GB 顯存最多容納約 48K Tokens。

然而,在諸如 OpenClaw 等長上下文的真實業(yè)務(wù)場景中,受到多輪對話、多并發(fā)用戶因素的影響,會話長度可達(dá) 64K,甚至 128K。此時,顯存容量的有限空間就使得系統(tǒng)經(jīng)常需要重新計算歷史 Token 的 KV 值,引起極大的推理時延。

為了解決顯存無法容納長上下文業(yè)務(wù)場景所需存放的 KV Cache 問題,業(yè)內(nèi)普遍采用了 KV Cache Offload 方案 —— 它提供了一種兼具性能與成本效益的技術(shù)路徑:將歷史 KV Cache 從昂貴的顯存中遷移至更具性價比的存儲介質(zhì)(如內(nèi)存、SSD 等),在會話延續(xù)時按需加載實現(xiàn)數(shù)據(jù)復(fù)用。然而,在將這一方案大規(guī)模落地到生產(chǎn)業(yè)務(wù)過程中,還需要解決三個關(guān)鍵問題:

首先,調(diào)度系統(tǒng)要如何匹配到最優(yōu)節(jié)點(diǎn),避免昂貴的重復(fù)計算開銷:傳統(tǒng)調(diào)度系統(tǒng)無法感知緩存的全景分布與介質(zhì)狀態(tài),存在嚴(yán)重的調(diào)度盲區(qū)。這導(dǎo)致請求往往被分發(fā)至無緩存節(jié)點(diǎn),觸發(fā)大規(guī)模重復(fù)計算與存儲冗余,難以發(fā)揮分布式緩存的集群效應(yīng)。

其次,如何提升多級緩存間的數(shù)據(jù)搬運(yùn)效率,加快響應(yīng)速度:傳統(tǒng)方案難以針對異構(gòu)芯片的底層訪存特性進(jìn)行深度優(yōu)化,在多級存儲介質(zhì)(HBM - DRAM - SSD)之間搬運(yùn)動態(tài)數(shù)據(jù)時,數(shù)據(jù)通路效率低下,極易引入額外的傳輸時延,抵消掉復(fù)用緩存帶來的性能增益。

另外,會話中斷后,如何避免 KV Cache 丟失:傳統(tǒng)方案中,緩存管理與推理進(jìn)程強(qiáng)耦合:一旦推理引擎進(jìn)程退出或異常重啟,緩存數(shù)據(jù)即刻失效。

AttentionStore —— KV Cache 全局調(diào)度與高效流轉(zhuǎn)系統(tǒng)

正是由于上述問題的存在,KV Cache Offload 并不能僅停留在「存儲遷移」層面,而必須在調(diào)度、數(shù)據(jù)通路與緩存管理機(jī)制上進(jìn)行系統(tǒng)性升級。

在這一背景下,百度(K89888)百舸構(gòu)建了 KV Cache 分布式緩存管理體系 AttentionStore,并基于昆侖芯硬件平臺進(jìn)行了深度適配與調(diào)優(yōu)。

AttentionStore 通過在推理集群層面實現(xiàn)多維感知與精準(zhǔn)調(diào)度,以及在執(zhí)行節(jié)點(diǎn)中加快緩存數(shù)據(jù)的傳輸效率,AttentionStore 可實現(xiàn)高達(dá) 80% ~ 90% 的 KV Cache 緩存命中率,大幅降低推理成本;并系統(tǒng)性減少重復(fù) Prefill 計算開銷,顯著降低 TTFT。

為了保障 KV Cache 服務(wù)連續(xù)性,我們將 AttentionStore 與推理引擎解耦,以獨(dú)立進(jìn)程的形式運(yùn)行在每個推理節(jié)點(diǎn)上,當(dāng)推理進(jìn)程重啟、故障恢復(fù)或版本升級時,KV Cache 依舊可以穩(wěn)定保存在 AttentionStore 管理的存儲空間中,可在后續(xù)推理中重新加載使用。同時,AttentionStore 采用共享內(nèi)存和 SSD 作為主機(jī)緩存介質(zhì),其自身重啟后可通過本地索引表快速實現(xiàn)數(shù)據(jù)恢復(fù),實現(xiàn)服務(wù)升級與維護(hù)期間業(yè)務(wù)無感切換。

KV Cache 全局感知,優(yōu)化推理調(diào)度決策鏈

在實際生產(chǎn)環(huán)境中,推理請求往往運(yùn)行在多節(jié)點(diǎn)、多實例的分布式架構(gòu)之上。若推理調(diào)度器對緩存分布無感知,僅依據(jù)不同實例的狀態(tài)及負(fù)載等因素進(jìn)行調(diào)度決策,極易出現(xiàn)「請求被調(diào)度至無緩存節(jié)點(diǎn)」的情況,從而觸發(fā)完整的 Prefill 重算,使得 Offload 帶來的性能收益被完全抵消。

為此,憑借行業(yè)領(lǐng)先的 KV Cache 多維感知,我們在推理集群內(nèi)構(gòu)建了實時 KV Cache 全局索引視圖;并將 KV Cache 納入調(diào)度決策,使調(diào)度從「只看資源」升級為「資源與緩存協(xié)同決策」。

全局 KV Cache 索引:我們在全局層面匯聚了各推理節(jié)點(diǎn)的 KV Block(XYZ) 信息,包括 Block(XYZ)Hash、所在存儲介質(zhì)(HBM / DRAM / SSD)等元數(shù)據(jù),并實時捕捉 KV Cache 的創(chuàng)建與銷毀事件,從而精準(zhǔn)掌握最新的全局 KV Cache 索引,形成 Host → Block(XYZ)s 映射關(guān)系;

調(diào)度決策優(yōu)化:在具備全局感知能力之后,KV Cache 的命中情況被正式納入調(diào)度決策路徑。在原有基于負(fù)載與健康狀態(tài)篩選候選節(jié)點(diǎn)的基礎(chǔ)上,調(diào)度器會根據(jù)請求上下文,將調(diào)度目標(biāo)先收斂到具備高緩存命中率的節(jié)點(diǎn)集合,并結(jié)合命中長度以及緩存所在存儲介質(zhì)(HBM / DRAM / SSD)的讀取效率,對候選節(jié)點(diǎn)進(jìn)行綜合打分。

最終,推理集群調(diào)度不再僅以「是否可用」為標(biāo)準(zhǔn),而是以「是否最優(yōu)」為目標(biāo) —— 將請求優(yōu)先分配至緩存命中率更高、數(shù)據(jù)加載速度更快的節(jié)點(diǎn),在保障負(fù)載均衡的前提下,最大化 KV Cache 復(fù)用價值,系統(tǒng)性降低重復(fù) Prefill 開銷,并顯著優(yōu)化 TTFT 表現(xiàn)。

KV Cache 多級緩存優(yōu)化,加速數(shù)據(jù)傳輸效率

實現(xiàn) KV Cache 的全局感知與精準(zhǔn)調(diào)度,解決了長上下文推理中緩存「調(diào)度匹配」的核心問題;而在多級緩存體系中,跨介質(zhì)的數(shù)據(jù)傳輸效率與多數(shù)據(jù)傳輸?shù)牟⑿心芰?,是決定 KV Cache 復(fù)用性能的另一關(guān)鍵因素。為此,百度(K89888)百舸通過 AttentionStore 對 KV Cache 的全生命周期(883436)數(shù)據(jù)通路進(jìn)行了深度優(yōu)化,構(gòu)建了高效的多級緩存體系,實現(xiàn)跨介質(zhì)數(shù)據(jù)傳輸?shù)娜婕铀佟?/p>

在典型的長文本推理場景下,KV Cache 在 HBM、DRAM、SSD 多級緩存體系中的數(shù)據(jù)流轉(zhuǎn)遵循以下邏輯:

請求到達(dá)時,Prefill 節(jié)點(diǎn)優(yōu)先嘗試從顯存 KV Cache 中匹配;

若顯存未命中,將借助節(jié)點(diǎn)間的 KV Cache 池化能力快速將緩存數(shù)據(jù)遷移至目標(biāo) Prefill 節(jié)點(diǎn)的主機(jī)內(nèi)存;仍未命中的部分則由 Prefill 節(jié)點(diǎn)即時計算生成;

Prefill 節(jié)點(diǎn)生成的 KV 傳輸至 Decode 節(jié)點(diǎn),并異步回寫至主機(jī)內(nèi)存 / SSD;

Decode 節(jié)點(diǎn)在推理過程中新生成的 KV 增量,異步回寫至 Prefill 節(jié)點(diǎn)的主機(jī)內(nèi)存 / SSD。

針對上述鏈路中的讀取、寫入及傳輸環(huán)節(jié),我們實施了如下針對性優(yōu)化:

昆侖芯底層原生適配:面向昆侖芯 XPU 架構(gòu),進(jìn)行了 AttentionStore 方案的深度適配 —— 針對 KV Cache 在顯存、內(nèi)存與 SSD 之間高頻流轉(zhuǎn)的特征,通過調(diào)用 XPU 原生 API,對數(shù)據(jù)搬運(yùn)、緩存訪問及執(zhí)行調(diào)度等關(guān)鍵路徑進(jìn)行專項優(yōu)化,從而充分發(fā)揮昆侖芯在帶寬與訪存效率上的硬件能力。同時,借助統(tǒng)一的硬件抽象與適配層,確保了底層指令集的無縫切換,由此,上層業(yè)務(wù)無需關(guān)注具體運(yùn)行在何種硬件架構(gòu)之上,即可獲得一致的緩存復(fù)用能力與性能表現(xiàn),實現(xiàn)了跨硬件環(huán)境的平滑運(yùn)行;

KV Cache 讀取加速:在 HBM、DRAM 與 SSD 混合命中的場景下,傳統(tǒng)的 KV Cache 讀取采用串行邏輯(如下圖左側(cè)「AttentionStore 優(yōu)化前」所示),這種方式的讀取耗時較長。對此,通過將 KV Cache 的讀取過程拆分為并行任務(wù) —— 讓高速介質(zhì)與低速介質(zhì)同步發(fā)起傳輸(如下圖右側(cè)「AttentionStore 優(yōu)化后」所示),最大程度縮短全部 KV Cache 的讀取耗時。此外,將 AttentionStore 管理的共享內(nèi)存標(biāo)記為大頁內(nèi)存,顯著減少頁表項數(shù)量,降低地址轉(zhuǎn)換開銷,提高內(nèi)存訪問效率;同時,通過全生命周期(883436)鎖頁操作,避免 KV Cache 數(shù)據(jù)在傳輸過程中被換出,減少額外的內(nèi)存拷貝與頁錯誤開銷,使數(shù)據(jù)能夠以更穩(wěn)定、更高帶寬的方式直達(dá)顯存。實測顯示,DRAM 到 HBM 的通信效率較基線提升了 4 倍,讓 DRAM 與 SSD 中的緩存數(shù)據(jù)能夠更快進(jìn)入顯存參與計算;

KV 傳輸加速:為了提高 KV 在 Prefill-Decode 節(jié)點(diǎn)間的傳輸效率,首先在推理引擎之外,引入基于 C++ SDK 的高性能數(shù)據(jù)通路,對 KV Cache 的傳輸過程進(jìn)行獨(dú)立管理與優(yōu)化。具體而言,通過 C++ SDK 擴(kuò)展,將 KV 數(shù)據(jù)的序列化、打包與跨節(jié)點(diǎn)傳輸?shù)炔僮鲝耐评碇鬟M(jìn)程中解耦出來,并交由獨(dú)立的異步線程池負(fù)責(zé)執(zhí)行,使 KV 傳輸與模型計算形成并行流水線,避免二者的相互阻塞。其次,在數(shù)據(jù)流傳路徑上,我們進(jìn)一步對 KV 的回寫與 P、D 節(jié)點(diǎn)間傳輸流程進(jìn)行了重構(gòu):傳統(tǒng)模式下,P 節(jié)點(diǎn)會先將 KV Cache 完整回寫至內(nèi)存 / SSD,再將其傳輸至 D 節(jié)點(diǎn);在 AttentionStore 中,我們將這一過程拆分為多個細(xì)粒度任務(wù),通過異步機(jī)制實現(xiàn)「寫回與傳輸同步進(jìn)行」。借此,在保障推理任務(wù)連續(xù)執(zhí)行的同時,顯著提升 KV Cache 的跨節(jié)點(diǎn)傳輸效率。

實踐效果:超長上下文場景下的性能飛躍

在 PD 分離推理架構(gòu)中,我們基于 DeepSeek R1 671B 模型,在昆侖芯 P800 集群環(huán)境中對 AttentionStore 的 KV Cache Offload 方案進(jìn)行了系統(tǒng)驗證。

環(huán)境及配置:2 臺 Prefill 節(jié)點(diǎn),TP4 / DP4 并行配置。

驗證效果:

當(dāng)上下文長度達(dá)到 8K 以上時,AttentionStore 的 TTFT 指標(biāo)具有 50%~80% 的穩(wěn)定優(yōu)化收益;

多輪對話場景中,通過避免重復(fù) Prefill 并提升 Prefill 節(jié)點(diǎn)的可復(fù)用性,系統(tǒng)整體吞吐量提升了 5.4 倍;

在 64K 長上下文場景中,相較于推理引擎默認(rèn) Chunk-Prefill 緩存策略,基于 AttentionStore 的 KV Cache Offload 方案顯著減少了歷史上下文的 Prefill 重算開銷,使 TTFT(首 Token 時延)降低 6.2 倍;

Agent 將大模型推理全面帶入長上下文與多輪交互時代,百度(K89888)百舸的 AttentionStore 讓 KV Cache 從「短暫的顯存數(shù)據(jù)結(jié)構(gòu)」演進(jìn)為「可持久、可調(diào)度、可規(guī)?;瘡?fù)用的系統(tǒng)資源」,通過對昆侖芯底層算力的深度調(diào)優(yōu)與推理框架的無縫集成。百舸這套系統(tǒng)成功實現(xiàn)了更優(yōu)的 TTFT 響應(yīng)與更低的成本開銷,成為百度(K89888)智能云助力大規(guī)模國產(chǎn)化算力落地構(gòu)筑的堅實底座。

免責(zé)聲明:風(fēng)險提示:本文內(nèi)容僅供參考,不代表同花順觀點(diǎn)。同花順各類信息服務(wù)基于人工智能算法,如有出入請以證監(jiān)會指定上市公司信息披露平臺為準(zhǔn)。如有投資者據(jù)此操作,風(fēng)險自擔(dān),同花順對此不承擔(dān)任何責(zé)任。
homeBack返回首頁
不良信息舉報與個人信息保護(hù)咨詢專線:10100571違法和不良信息涉企侵權(quán)舉報涉算法推薦舉報專區(qū)涉青少年不良信息舉報專區(qū)

浙江同花順互聯(lián)信息技術(shù)有限公司版權(quán)所有

網(wǎng)站備案號:浙ICP備18032105號-4
證券投資咨詢服務(wù)提供:浙江同花順云軟件有限公司 (中國證監(jiān)會核發(fā)證書編號:ZX0050)
AIME
舉報舉報
反饋反饋