量化
"WebGPU与ONNX Runtime Web推理性能优化实践"
"采用WebGPU与ONNX Runtime Web进行前端推理与图形计算,结合模型量化与资源优化提升性能,并以真实指标验证延迟与体积收益。"
Core Web Vitals 与 View Transitions 导航体验量化评估
基于 RUM 与 Lighthouse 设计实验,对比启用 View Transitions 的导航体验提升与对 INP/LCP 的定量影响。
大模型推理加速:量化、蒸馏与KV Cache
以量化、模型蒸馏与 KV Cache 为核心的推理加速路径,在保证可控事实性的前提下降低延迟与成本。
"大模型推理优化-KV Cache与量化并行"
"总结大模型推理的核心优化技术,从KV Cache到量化与并行策略,提升吞吐与降低延迟。"
"大模型推理性能优化实践:KV Cache、量化与并行"
"面向生产的推理优化方案,总结 KV Cache 管理、模型量化与并行化策略的组合实践,并给出可验证的参数依据与取舍建议。"
