推理 - 叶斌兵

GPU 调度与 AI 推理成本优化（2025）

GPU 调度与 AI 推理成本优化（2025）推理服务成本受批量与并发与精度等影响，需在性能与体验之间平衡。一、批处理与并发批处理：提升吞吐但增加延迟；按场景权衡批大小。并发调度：控制并发队列与优先级，避免拥塞与抖动。二、精度与算子混合精度：FP16/BF16 在可接受损失下提升性能。算子优化：选择

声学与音频 2026年02月20日 0 点赞 0 评论 7 浏览

浏览器端 AI 推理实践：WebGPU/ONNX Runtime Web 与性能优化

在浏览器端实现 AI 推理，采用 WebGPU 与 ONNX Runtime Web，覆盖模型加载、输入预处理与性能优化策略，提供可验证的时延与体积指标

前端框架 2026年02月13日 0 点赞 0 评论 16 浏览

大模型推理性能优化实践：KV Cache、量化与并行

"面向生产的推理优化方案，总结 KV Cache 管理、模型量化与并行化策略的组合实践，并给出可验证的参数依据与取舍建议。"

CI-CD 2026年02月13日 0 点赞 0 评论 14 浏览

大模型推理优化-KV Cache与量化并行

"总结大模型推理的核心优化技术，从KV Cache到量化与并行策略，提升吞吐与降低延迟。"

CI-CD 2026年02月13日 0 点赞 0 评论 14 浏览

FlashAttention 推理吞吐与 KV Cache 治理（2025）

vLLM/FlashAttention 推理吞吐与 KV Cache 治理（2025）一、内存与缓存KV Cache：统一管理键值缓存（KV Cache），减少重复计算与显存占用。切片：对长序列进行分块；避免单请求占满资源。二、批处理与调度Batch：合并并发请求形成批处理（Batch）；平衡吞吐与

缓存 2026年02月13日 0 点赞 0 评论 12 浏览