同花順財經(jīng)__讓投資變得更簡單

2026 開年，OpenClaw 的現(xiàn)象級爆發(fā)使大模型迅速邁入「超長上下文」時代。在幾乎人人手捧「龍蝦」穿梭于代碼、搜索、辦公自動化的當(dāng)下,Token（詞元）消耗成本正在迅速累積。據(jù) OpenRouter 平臺數(shù)據(jù)，2026 年 3 月單周 OpenClaw Token 消耗量占平臺總量的 20%。用戶實測單個會話的上下文可膨脹至 23 萬 Token；重度使用場景的月成本甚至高達(dá) 800-1500 美元。

這背后，是 Agent 架構(gòu)的全量記憶策略 —— 每一輪對話請求都必須攜帶歷史上下文，導(dǎo)致 Token 消耗隨輪次呈滾雪球式增長。

此時，KV Cache 的管理方式便成為影響推理效率與成本的關(guān)鍵變量。若無法有效復(fù)用歷史 KV Cache，系統(tǒng)將重復(fù)執(zhí)行 Prefill 計算 —— 不僅帶來了不必要的 Token 成本花銷，也會顯著拉長首 Token 時延（TTFT）。因此，通過提升上下文緩存命中率來降低用戶使用成本以及通過減少重復(fù) Prefill 計算來降低 TTFT，成為 KV Cache 優(yōu)化的核心方向。

百度（K89888）智能云旗下百度（K89888）百舸團(tuán)隊近日推出了一套自主研發(fā)的 KV Cache 系統(tǒng) —— AttentionStore，并基于昆侖芯 P800 在 DeepSeek 模型上完成系統(tǒng)驗證：在 8K+ 長上下文場景中，TTFT 實現(xiàn)了 2 至 5 倍的性能提升；而在 64K 長上下文場景下，TTFT 性能提升至 6.2 倍，顯著增強(qiáng)了大模型在長上下文歷史條件下的 Token 響應(yīng)能力。

顯存瓶頸：長上下文推理的隱形天花板

在當(dāng)前主流推理引擎（如 SGLang、vLLM 等）中，KV Cache 通常被視為一種僅存在于顯存中的短生命周期（883436）數(shù)據(jù)結(jié)構(gòu)。其設(shè)計目標(biāo)很明確：在一次請求的解碼階段復(fù)用歷史 Key / Value，避免重復(fù)計算；一旦請求結(jié)束或被調(diào)度器回收，KV Cache 便會被整體釋放，以保證顯存能夠服務(wù)更多并發(fā)請求。

然而，隨著多輪對話等長上下文場景的興起，推理系統(tǒng)中所能容納的 KV Cache 體量逐漸成為了決定系統(tǒng)性能的核心變量。此時，僅依靠顯存承載的 KV Cache 體量遠(yuǎn)遠(yuǎn)不能滿足長下文推理場景下的會話響應(yīng)要求。

要準(zhǔn)確評估 KV Cache 存儲的瓶頸，就需要綜合分析「單個 Token 所需的 KV 緩存開銷」、「可存放 KV Cache 的顯存容量」、以及「長上下文的會話長度」。

當(dāng)前，KV 緩存的計算公式與模型規(guī)模、模型層數(shù)、數(shù)據(jù)精度、以及所采用的注意力頭結(jié)構(gòu)相關(guān)。以 Qwen3-32B 模型為例，其采用 GQA 結(jié)構(gòu)，在 FP16 精度下，單 Token 所需的 KV 緩存開銷約為 0.25MB，對于一個 80GB 顯存的加速卡來說，除去模型權(quán)重需占用的 60GB 以及 runtime buffer、臨時算子、并發(fā)數(shù)等占用的約 5g（885556）B～10GB 后，僅剩余的 10GB 顯存最多容納約 40K Tokens。

而以 LLaMA-13B 模型為例，其采用 MHA 結(jié)構(gòu)，在 FP16 精度下，單 Token 所需的 KV 緩存開銷約為 0.8MB，在 80GB 顯存的加速卡中，僅剩余的 40GB 顯存最多容納約 48K Tokens。

然而，在諸如 OpenClaw 等長上下文的真實業(yè)務(wù)場景中，受到多輪對話、多并發(fā)用戶因素的影響，會話長度可達(dá) 64K，甚至 128K。此時，顯存容量的有限空間就使得系統(tǒng)經(jīng)常需要重新計算歷史 Token 的 KV 值，引起極大的推理時延。

為了解決顯存無法容納長上下文業(yè)務(wù)場景所需存放的 KV Cache 問題，業(yè)內(nèi)普遍采用了 KV Cache Offload 方案 —— 它提供了一種兼具性能與成本效益的技術(shù)路徑：將歷史 KV Cache 從昂貴的顯存中遷移至更具性價比的存儲介質(zhì)（如內(nèi)存、SSD 等），在會話延續(xù)時按需加載實現(xiàn)數(shù)據(jù)復(fù)用。然而，在將這一方案大規(guī)模落地到生產(chǎn)業(yè)務(wù)過程中，還需要解決三個關(guān)鍵問題：

首先，調(diào)度系統(tǒng)要如何匹配到最優(yōu)節(jié)點(diǎn)，避免昂貴的重復(fù)計算開銷：傳統(tǒng)調(diào)度系統(tǒng)無法感知緩存的全景分布與介質(zhì)狀態(tài)，存在嚴(yán)重的調(diào)度盲區(qū)。這導(dǎo)致請求往往被分發(fā)至無緩存節(jié)點(diǎn)，觸發(fā)大規(guī)模重復(fù)計算與存儲冗余，難以發(fā)揮分布式緩存的集群效應(yīng)。

其次，如何提升多級緩存間的數(shù)據(jù)搬運(yùn)效率，加快響應(yīng)速度：傳統(tǒng)方案難以針對異構(gòu)芯片的底層訪存特性進(jìn)行深度優(yōu)化，在多級存儲介質(zhì)（HBM - DRAM - SSD）之間搬運(yùn)動態(tài)數(shù)據(jù)時，數(shù)據(jù)通路效率低下，極易引入額外的傳輸時延，抵消掉復(fù)用緩存帶來的性能增益。

另外，會話中斷后，如何避免 KV Cache 丟失：傳統(tǒng)方案中，緩存管理與推理進(jìn)程強(qiáng)耦合：一旦推理引擎進(jìn)程退出或異常重啟，緩存數(shù)據(jù)即刻失效。

AttentionStore —— KV Cache 全局調(diào)度與高效流轉(zhuǎn)系統(tǒng)

正是由于上述問題的存在，KV Cache Offload 并不能僅停留在「存儲遷移」層面，而必須在調(diào)度、數(shù)據(jù)通路與緩存管理機(jī)制上進(jìn)行系統(tǒng)性升級。

在這一背景下，百度（K89888）百舸構(gòu)建了 KV Cache 分布式緩存管理體系 AttentionStore，并基于昆侖芯硬件平臺進(jìn)行了深度適配與調(diào)優(yōu)。

AttentionStore 通過在推理集群層面實現(xiàn)多維感知與精準(zhǔn)調(diào)度，以及在執(zhí)行節(jié)點(diǎn)中加快緩存數(shù)據(jù)的傳輸效率，AttentionStore 可實現(xiàn)高達(dá) 80% ～ 90% 的 KV Cache 緩存命中率，大幅降低推理成本；并系統(tǒng)性減少重復(fù) Prefill 計算開銷，顯著降低 TTFT。

為了保障 KV Cache 服務(wù)連續(xù)性，我們將 AttentionStore 與推理引擎解耦，以獨(dú)立進(jìn)程的形式運(yùn)行在每個推理節(jié)點(diǎn)上，當(dāng)推理進(jìn)程重啟、故障恢復(fù)或版本升級時，KV Cache 依舊可以穩(wěn)定保存在 AttentionStore 管理的存儲空間中，可在后續(xù)推理中重新加載使用。同時，AttentionStore 采用共享內(nèi)存和 SSD 作為主機(jī)緩存介質(zhì)，其自身重啟后可通過本地索引表快速實現(xiàn)數(shù)據(jù)恢復(fù)，實現(xiàn)服務(wù)升級與維護(hù)期間業(yè)務(wù)無感切換。

KV Cache 全局感知，優(yōu)化推理調(diào)度決策鏈

在實際生產(chǎn)環(huán)境中，推理請求往往運(yùn)行在多節(jié)點(diǎn)、多實例的分布式架構(gòu)之上。若推理調(diào)度器對緩存分布無感知，僅依據(jù)不同實例的狀態(tài)及負(fù)載等因素進(jìn)行調(diào)度決策，極易出現(xiàn)「請求被調(diào)度至無緩存節(jié)點(diǎn)」的情況，從而觸發(fā)完整的 Prefill 重算，使得 Offload 帶來的性能收益被完全抵消。

為此，憑借行業(yè)領(lǐng)先的 KV Cache 多維感知，我們在推理集群內(nèi)構(gòu)建了實時 KV Cache 全局索引視圖；并將 KV Cache 納入調(diào)度決策，使調(diào)度從「只看資源」升級為「資源與緩存協(xié)同決策」。

全局 KV Cache 索引：我們在全局層面匯聚了各推理節(jié)點(diǎn)的 KV Block（XYZ）信息，包括 Block（XYZ）Hash、所在存儲介質(zhì)（HBM / DRAM / SSD）等元數(shù)據(jù)，并實時捕捉 KV Cache 的創(chuàng)建與銷毀事件，從而精準(zhǔn)掌握最新的全局 KV Cache 索引，形成 Host → Block（XYZ）s 映射關(guān)系；

調(diào)度決策優(yōu)化：在具備全局感知能力之后，KV Cache 的命中情況被正式納入調(diào)度決策路徑。在原有基于負(fù)載與健康狀態(tài)篩選候選節(jié)點(diǎn)的基礎(chǔ)上，調(diào)度器會根據(jù)請求上下文，將調(diào)度目標(biāo)先收斂到具備高緩存命中率的節(jié)點(diǎn)集合，并結(jié)合命中長度以及緩存所在存儲介質(zhì)（HBM / DRAM / SSD）的讀取效率，對候選節(jié)點(diǎn)進(jìn)行綜合打分。

最終，推理集群調(diào)度不再僅以「是否可用」為標(biāo)準(zhǔn)，而是以「是否最優(yōu)」為目標(biāo) —— 將請求優(yōu)先分配至緩存命中率更高、數(shù)據(jù)加載速度更快的節(jié)點(diǎn)，在保障負(fù)載均衡的前提下，最大化 KV Cache 復(fù)用價值，系統(tǒng)性降低重復(fù) Prefill 開銷，并顯著優(yōu)化 TTFT 表現(xiàn)。

KV Cache 多級緩存優(yōu)化，加速數(shù)據(jù)傳輸效率

實現(xiàn) KV Cache 的全局感知與精準(zhǔn)調(diào)度，解決了長上下文推理中緩存「調(diào)度匹配」的核心問題；而在多級緩存體系中，跨介質(zhì)的數(shù)據(jù)傳輸效率與多數(shù)據(jù)傳輸?shù)牟⑿心芰?，是決定 KV Cache 復(fù)用性能的另一關(guān)鍵因素。為此，百度（K89888）百舸通過 AttentionStore 對 KV Cache 的全生命周期（883436）數(shù)據(jù)通路進(jìn)行了深度優(yōu)化，構(gòu)建了高效的多級緩存體系，實現(xiàn)跨介質(zhì)數(shù)據(jù)傳輸?shù)娜婕铀佟?/p>

在典型的長文本推理場景下，KV Cache 在 HBM、DRAM、SSD 多級緩存體系中的數(shù)據(jù)流轉(zhuǎn)遵循以下邏輯：

請求到達(dá)時，Prefill 節(jié)點(diǎn)優(yōu)先嘗試從顯存 KV Cache 中匹配；

若顯存未命中，將借助節(jié)點(diǎn)間的 KV Cache 池化能力快速將緩存數(shù)據(jù)遷移至目標(biāo) Prefill 節(jié)點(diǎn)的主機(jī)內(nèi)存；仍未命中的部分則由 Prefill 節(jié)點(diǎn)即時計算生成；

Prefill 節(jié)點(diǎn)生成的 KV 傳輸至 Decode 節(jié)點(diǎn)，并異步回寫至主機(jī)內(nèi)存 / SSD；

Decode 節(jié)點(diǎn)在推理過程中新生成的 KV 增量，異步回寫至 Prefill 節(jié)點(diǎn)的主機(jī)內(nèi)存 / SSD。

針對上述鏈路中的讀取、寫入及傳輸環(huán)節(jié)，我們實施了如下針對性優(yōu)化：

昆侖芯底層原生適配：面向昆侖芯 XPU 架構(gòu)，進(jìn)行了 AttentionStore 方案的深度適配 —— 針對 KV Cache 在顯存、內(nèi)存與 SSD 之間高頻流轉(zhuǎn)的特征，通過調(diào)用 XPU 原生 API，對數(shù)據(jù)搬運(yùn)、緩存訪問及執(zhí)行調(diào)度等關(guān)鍵路徑進(jìn)行專項優(yōu)化，從而充分發(fā)揮昆侖芯在帶寬與訪存效率上的硬件能力。同時，借助統(tǒng)一的硬件抽象與適配層，確保了底層指令集的無縫切換，由此，上層業(yè)務(wù)無需關(guān)注具體運(yùn)行在何種硬件架構(gòu)之上，即可獲得一致的緩存復(fù)用能力與性能表現(xiàn)，實現(xiàn)了跨硬件環(huán)境的平滑運(yùn)行；

KV Cache 讀取加速：在 HBM、DRAM 與 SSD 混合命中的場景下，傳統(tǒng)的 KV Cache 讀取采用串行邏輯（如下圖左側(cè)「AttentionStore 優(yōu)化前」所示），這種方式的讀取耗時較長。對此，通過將 KV Cache 的讀取過程拆分為并行任務(wù) —— 讓高速介質(zhì)與低速介質(zhì)同步發(fā)起傳輸（如下圖右側(cè)「AttentionStore 優(yōu)化后」所示），最大程度縮短全部 KV Cache 的讀取耗時。此外，將 AttentionStore 管理的共享內(nèi)存標(biāo)記為大頁內(nèi)存，顯著減少頁表項數(shù)量，降低地址轉(zhuǎn)換開銷，提高內(nèi)存訪問效率；同時，通過全生命周期（883436）鎖頁操作，避免 KV Cache 數(shù)據(jù)在傳輸過程中被換出，減少額外的內(nèi)存拷貝與頁錯誤開銷，使數(shù)據(jù)能夠以更穩(wěn)定、更高帶寬的方式直達(dá)顯存。實測顯示，DRAM 到 HBM 的通信效率較基線提升了 4 倍，讓 DRAM 與 SSD 中的緩存數(shù)據(jù)能夠更快進(jìn)入顯存參與計算；

KV 傳輸加速：為了提高 KV 在 Prefill-Decode 節(jié)點(diǎn)間的傳輸效率，首先在推理引擎之外，引入基于 C++ SDK 的高性能數(shù)據(jù)通路，對 KV Cache 的傳輸過程進(jìn)行獨(dú)立管理與優(yōu)化。具體而言，通過 C++ SDK 擴(kuò)展，將 KV 數(shù)據(jù)的序列化、打包與跨節(jié)點(diǎn)傳輸?shù)炔僮鲝耐评碇鬟M(jìn)程中解耦出來，并交由獨(dú)立的異步線程池負(fù)責(zé)執(zhí)行，使 KV 傳輸與模型計算形成并行流水線，避免二者的相互阻塞。其次，在數(shù)據(jù)流傳路徑上，我們進(jìn)一步對 KV 的回寫與 P、D 節(jié)點(diǎn)間傳輸流程進(jìn)行了重構(gòu)：傳統(tǒng)模式下，P 節(jié)點(diǎn)會先將 KV Cache 完整回寫至內(nèi)存 / SSD，再將其傳輸至 D 節(jié)點(diǎn)；在 AttentionStore 中，我們將這一過程拆分為多個細(xì)粒度任務(wù)，通過異步機(jī)制實現(xiàn)「寫回與傳輸同步進(jìn)行」。借此，在保障推理任務(wù)連續(xù)執(zhí)行的同時，顯著提升 KV Cache 的跨節(jié)點(diǎn)傳輸效率。

實踐效果：超長上下文場景下的性能飛躍

在 PD 分離推理架構(gòu)中，我們基于 DeepSeek R1 671B 模型，在昆侖芯 P800 集群環(huán)境中對 AttentionStore 的 KV Cache Offload 方案進(jìn)行了系統(tǒng)驗證。

環(huán)境及配置：2 臺 Prefill 節(jié)點(diǎn)，TP4 / DP4 并行配置。

驗證效果：

當(dāng)上下文長度達(dá)到 8K 以上時，AttentionStore 的 TTFT 指標(biāo)具有 50%～80% 的穩(wěn)定優(yōu)化收益；

多輪對話場景中，通過避免重復(fù) Prefill 并提升 Prefill 節(jié)點(diǎn)的可復(fù)用性，系統(tǒng)整體吞吐量提升了 5.4 倍；

在 64K 長上下文場景中，相較于推理引擎默認(rèn) Chunk-Prefill 緩存策略，基于 AttentionStore 的 KV Cache Offload 方案顯著減少了歷史上下文的 Prefill 重算開銷，使 TTFT（首 Token 時延）降低 6.2 倍；

Agent 將大模型推理全面帶入長上下文與多輪交互時代，百度（K89888）百舸的 AttentionStore 讓 KV Cache 從「短暫的顯存數(shù)據(jù)結(jié)構(gòu)」演進(jìn)為「可持久、可調(diào)度、可規(guī)?；瘡?fù)用的系統(tǒng)資源」，通過對昆侖芯底層算力的深度調(diào)優(yōu)與推理框架的無縫集成。百舸這套系統(tǒng)成功實現(xiàn)了更優(yōu)的 TTFT 響應(yīng)與更低的成本開銷，成為百度（K89888）智能云助力大規(guī)模國產(chǎn)化算力落地構(gòu)筑的堅實底座。

大陆一级毛片免费视频观看i,一级黄色在线播放,a毛片成人免费全部播放,a级毛片免费高清视频,12至16末成年毛片高清,中文毛片,亚洲欧美日韩综合精品网