弹性

KServe 模型部署与弹性推理实践(2025)

KServe 模型部署与弹性推理实践(2025)一、部署与接口InferenceService:统一模型入口与协议(REST/gRPC)。模型格式:支持 ONNX/TensorFlow/PMML 等多格式。二、弹性与发布Autoscaling:按 QPS/并发与延迟指标伸缩副本。Canary:按权重