"WebGPU与ONNX Runtime Web推理性能优化实践" "采用WebGPU与ONNX Runtime Web进行前端推理与图形计算,结合模型量化与资源优化提升性能,并以真实指标验证延迟与体积收益。" 未知 2026年02月13日 0 点赞 0 评论 5 浏览
大模型推理加速:量化、蒸馏与KV Cache 以量化、模型蒸馏与 KV Cache 为核心的推理加速路径,在保证可控事实性的前提下降低延迟与成本。 后端开发 2026年02月13日 0 点赞 0 评论 4 浏览
"大模型推理性能优化实践:KV Cache、量化与并行" "面向生产的推理优化方案,总结 KV Cache 管理、模型量化与并行化策略的组合实践,并给出可验证的参数依据与取舍建议。" 后端开发 2026年02月13日 0 点赞 0 评论 4 浏览
Core Web Vitals 与 View Transitions 导航体验量化评估 基于 RUM 与 Lighthouse 设计实验,对比启用 View Transitions 的导航体验提升与对 INP/LCP 的定量影响。 未知 2026年02月13日 0 点赞 0 评论 3 浏览
"大模型推理优化-KV Cache与量化并行" "总结大模型推理的核心优化技术,从KV Cache到量化与并行策略,提升吞吐与降低延迟。" 后端开发 2026年02月13日 0 点赞 0 评论 2 浏览