大模型推理加速:量化、蒸馏与KV Cache 以量化、模型蒸馏与 KV Cache 为核心的推理加速路径,在保证可控事实性的前提下降低延迟与成本。 后端开发 2026年02月13日 0 点赞 0 评论 5 浏览
浏览器端 AI 推理实践:WebGPU/ONNX Runtime Web 与性能优化 在浏览器端实现 AI 推理,采用 WebGPU 与 ONNX Runtime Web,覆盖模型加载、输入预处理与性能优化策略,提供可验证的时延与体积指标 未知 2026年02月13日 0 点赞 0 评论 5 浏览
LLM 推理缓存与去重策略(Prompt Cache、Fingerprint 与验证) 通过Prompt缓存与请求指纹实现去重与命中,结合结果分片与Speculative策略降低延迟与成本,提供实现与验证方法。 数据科学与AI 2026年02月13日 0 点赞 0 评论 6 浏览
KServe 推理服务自动伸缩与 GPU 调度治理(2025) KServe 推理服务自动伸缩与 GPU 调度治理(2025)一、架构与部署模型服务:`InferenceService` 定义接口与路由;支持 REST/gRPC。资源:为 `GPU` 设置 requests/limits 与节点选择器;隔离不同模型的资源。存储:模型拉取与缓存策略,减少启动时延。 数据科学与AI 2026年02月12日 0 点赞 0 评论 7 浏览