推理 - 叶斌兵

vLLM与TGI推理框架对比：吞吐与兼容性

比较 vLLM 与 HuggingFace TGI 的架构与接口兼容性，理解批量与并发表现差异以优化部署选型。

后端开发 2026年02月13日 0 点赞 0 评论 2 浏览

FlashAttention 推理吞吐与 KV Cache 治理（2025）

vLLM/FlashAttention 推理吞吐与 KV Cache 治理（2025）一、内存与缓存KV Cache：统一管理键值缓存（KV Cache），减少重复计算与显存占用。切片：对长序列进行分块；避免单请求占满资源。二、批处理与调度Batch：合并并发请求形成批处理（Batch）；平衡吞吐与

未知 2026年02月13日 0 点赞 0 评论 2 浏览

"大模型推理优化-KV Cache与量化并行"

"总结大模型推理的核心优化技术，从KV Cache到量化与并行策略，提升吞吐与降低延迟。"

后端开发 2026年02月13日 0 点赞 0 评论 2 浏览

大模型推理优化与部署：FP16、INT8与KV Cache实践

通过精度压缩与KV Cache优化提升大模型推理吞吐与延迟，提供可验证的显存估算与参数选择建议。

后端开发 2026年02月13日 0 点赞 0 评论 3 浏览

"大模型推理性能优化实践：KV Cache、量化与并行"

"面向生产的推理优化方案，总结 KV Cache 管理、模型量化与并行化策略的组合实践，并给出可验证的参数依据与取舍建议。"

后端开发 2026年02月13日 0 点赞 0 评论 4 浏览

AI 推理服务的可伸缩架构与成本优化

总结 AI 推理服务的吞吐与时延优化手段，覆盖并发批处理、模型并行与量化，以及自动扩缩与成本治理策略。

AI 工程 2026年02月14日 0 点赞 0 评论 5 浏览

KServe 模型推理服务（Autoscaling、Canary 与性能验证）

基于 KServe 构建模型推理服务，配置自动伸缩与金丝雀发布，并通过压测与观测验证性能与稳定性。

ML 2026年02月12日 0 点赞 0 评论 5 浏览

KServe 模型部署与弹性推理实践（2025）

KServe 模型部署与弹性推理实践（2025）一、部署与接口InferenceService：统一模型入口与协议（REST/gRPC）。模型格式：支持 ONNX/TensorFlow/PMML 等多格式。二、弹性与发布Autoscaling：按 QPS/并发与延迟指标伸缩副本。Canary：按权重

数据科学与AI 2026年02月12日 0 点赞 0 评论 5 浏览

LLM 推理优化（Batching、Cache、Speculative Decoding 与验证）

总结大模型推理的性能优化方法，包括批处理、缓存与推测解码，并提供可验证的压测与观测路径。

ML 2026年02月13日 0 点赞 0 评论 5 浏览

"WebGPU与ONNX Runtime Web推理性能优化实践"

"采用WebGPU与ONNX Runtime Web进行前端推理与图形计算，结合模型量化与资源优化提升性能，并以真实指标验证延迟与体积收益。"

未知 2026年02月13日 0 点赞 0 评论 5 浏览

推理

首页

推理

列表

默认

浏览次数

发布日期