"WebGPU与ONNX Runtime Web推理性能优化实践" "采用WebGPU与ONNX Runtime Web进行前端推理与图形计算,结合模型量化与资源优化提升性能,并以真实指标验证延迟与体积收益。" Recovered Channel 1912 2026年02月13日 0 点赞 0 评论 5 浏览
AI 推理服务的可伸缩架构与成本优化 总结 AI 推理服务的吞吐与时延优化手段,覆盖并发批处理、模型并行与量化,以及自动扩缩与成本治理策略。 AI 工程 2026年02月14日 0 点赞 0 评论 4 浏览
KServe 推理服务自动伸缩与 GPU 调度治理(2025) KServe 推理服务自动伸缩与 GPU 调度治理(2025)一、架构与部署模型服务:`InferenceService` 定义接口与路由;支持 REST/gRPC。资源:为 `GPU` 设置 requests/limits 与节点选择器;隔离不同模型的资源。存储:模型拉取与缓存策略,减少启动时延。 - AI 2026年02月12日 0 点赞 0 评论 4 浏览
"大模型推理性能优化实践:KV Cache、量化与并行" "面向生产的推理优化方案,总结 KV Cache 管理、模型量化与并行化策略的组合实践,并给出可验证的参数依据与取舍建议。" Recovered Channel 1273 2026年02月13日 0 点赞 0 评论 4 浏览
浏览器端 AI 推理实践:WebGPU/ONNX Runtime Web 与性能优化 在浏览器端实现 AI 推理,采用 WebGPU 与 ONNX Runtime Web,覆盖模型加载、输入预处理与性能优化策略,提供可验证的时延与体积指标 Recovered Channel 2076 2026年02月13日 0 点赞 0 评论 4 浏览
KServe 模型推理服务(Autoscaling、Canary 与性能验证) 基于 KServe 构建模型推理服务,配置自动伸缩与金丝雀发布,并通过压测与观测验证性能与稳定性。 ML 2026年02月12日 0 点赞 0 评论 3 浏览
KServe 模型部署与弹性推理实践(2025) KServe 模型部署与弹性推理实践(2025)一、部署与接口InferenceService:统一模型入口与协议(REST/gRPC)。模型格式:支持 ONNX/TensorFlow/PMML 等多格式。二、弹性与发布Autoscaling:按 QPS/并发与延迟指标伸缩副本。Canary:按权重 - AI 2026年02月12日 0 点赞 0 评论 3 浏览
LLM 推理缓存与去重策略(Prompt Cache、Fingerprint 与验证) 通过Prompt缓存与请求指纹实现去重与命中,结合结果分片与Speculative策略降低延迟与成本,提供实现与验证方法。 AI 2026年02月13日 0 点赞 0 评论 3 浏览
大模型推理优化与部署:FP16、INT8与KV Cache实践 通过精度压缩与KV Cache优化提升大模型推理吞吐与延迟,提供可验证的显存估算与参数选择建议。 Recovered Channel 1273 2026年02月13日 0 点赞 0 评论 3 浏览
大模型推理加速:量化、蒸馏与KV Cache 以量化、模型蒸馏与 KV Cache 为核心的推理加速路径,在保证可控事实性的前提下降低延迟与成本。 Recovered Channel 1273 2026年02月13日 0 点赞 0 评论 3 浏览