大模型推理优化-KV Cache与量化并行 "总结大模型推理的核心优化技术,从KV Cache到量化与并行策略,提升吞吐与降低延迟。" CI-CD 2026年02月13日 0 点赞 0 评论 14 浏览
大模型推理加速:量化、蒸馏与KV Cache 以量化、模型蒸馏与 KV Cache 为核心的推理加速路径,在保证可控事实性的前提下降低延迟与成本。 缓存 2026年02月13日 0 点赞 0 评论 14 浏览
大模型推理性能优化实践:KV Cache、量化与并行 "面向生产的推理优化方案,总结 KV Cache 管理、模型量化与并行化策略的组合实践,并给出可验证的参数依据与取舍建议。" CI-CD 2026年02月13日 0 点赞 0 评论 12 浏览
浏览器端 AI 推理实践:WebGPU/ONNX Runtime Web 与性能优化 在浏览器端实现 AI 推理,采用 WebGPU 与 ONNX Runtime Web,覆盖模型加载、输入预处理与性能优化策略,提供可验证的时延与体积指标 前端框架 2026年02月13日 0 点赞 0 评论 16 浏览
GPU 调度与 AI 推理成本优化(2025) GPU 调度与 AI 推理成本优化(2025)推理服务成本受批量与并发与精度等影响,需在性能与体验之间平衡。一、批处理与并发批处理:提升吞吐但增加延迟;按场景权衡批大小。并发调度:控制并发队列与优先级,避免拥塞与抖动。二、精度与算子混合精度:FP16/BF16 在可接受损失下提升性能。算子优化:选择 声学与音频 2026年02月20日 0 点赞 0 评论 4 浏览
GraphRAG:图结构增强检索与关系推理 以图结构作为知识组织与检索基础,结合语义检索与关系推理提升长链路问题的答案质量与可解释性。 API网关 2026年02月20日 0 点赞 0 评论 15 浏览