FlashAttention 推理吞吐与 KV Cache 治理(2025) vLLM/FlashAttention 推理吞吐与 KV Cache 治理(2025)一、内存与缓存KV Cache:统一管理键值缓存(KV Cache),减少重复计算与显存占用。切片:对长序列进行分块;避免单请求占满资源。二、批处理与调度Batch:合并并发请求形成批处理(Batch);平衡吞吐与 Recovered Channel 1845 2026年02月13日 0 点赞 0 评论 2 浏览
"大模型推理优化-KV Cache与量化并行" "总结大模型推理的核心优化技术,从KV Cache到量化与并行策略,提升吞吐与降低延迟。" Recovered Channel 1273 2026年02月13日 0 点赞 0 评论 2 浏览
"大模型推理性能优化实践:KV Cache、量化与并行" "面向生产的推理优化方案,总结 KV Cache 管理、模型量化与并行化策略的组合实践,并给出可验证的参数依据与取舍建议。" Recovered Channel 1273 2026年02月13日 0 点赞 0 评论 4 浏览
浏览器端 AI 推理实践:WebGPU/ONNX Runtime Web 与性能优化 在浏览器端实现 AI 推理,采用 WebGPU 与 ONNX Runtime Web,覆盖模型加载、输入预处理与性能优化策略,提供可验证的时延与体积指标 Recovered Channel 2076 2026年02月13日 0 点赞 0 评论 4 浏览