模型 - 叶斌兵

KServe 模型推理服务（Autoscaling、Canary 与性能验证）

基于 KServe 构建模型推理服务，配置自动伸缩与金丝雀发布，并通过压测与观测验证性能与稳定性。

性能优化 2026年02月12日 0 点赞 0 评论 14 浏览

KServe 模型部署与弹性推理实践（2025）

KServe 模型部署与弹性推理实践（2025）一、部署与接口InferenceService：统一模型入口与协议（REST/gRPC）。模型格式：支持 ONNX/TensorFlow/PMML 等多格式。二、弹性与发布Autoscaling：按 QPS/并发与延迟指标伸缩副本。Canary：按权重

数据科学与AI 2026年02月12日 0 点赞 0 评论 9 浏览

MLOps 模型监控与漂移检测（2025）

MLOps 模型监控与漂移检测（2025）模型上线后需要持续观测与校正，防止性能劣化与风险。一、指标与采样指标：准确率、召回率与业务指标联合评估。采样：对在线数据进行代表性采样以支持评估。二、漂移检测分布漂移：监控输入与特征分布变化，预警异常。概念漂移：识别标签与场景变化导致的性能下降。三、反馈与再

数据科学与AI 2026年02月13日 0 点赞 0 评论 9 浏览

MongoDB 模型设计与索引优化（2025）

MongoDB 模型设计与索引优化（2025）MongoDB 的性能依赖合理的文档模型与索引策略与聚合设计。一、模型设计文档粒度：按访问模式划分嵌套与引用，降低跨集合联动。规范命名：字段与类型一致，便于索引与聚合。二、索引与TTL复合索引：覆盖过滤与排序字段，减少扫描。TTL 索引：为过期数据设置自

数据库 2026年02月13日 0 点赞 0 评论 18 浏览

NVIDIA Triton Inference Server 模型仓库与调度治理（2025）

NVIDIA Triton Inference Server 模型仓库与调度治理（2025）一、模型仓库与版本仓库：统一模型仓库布局；记录版本与配置（模型仓库）。热加载：支持在线加载/卸载；灰度发布与回滚。二、并发与批处理并发：设置实例与并发（并发）；限制热点模型资源。Batch：启用动态批处理（B

数据科学与AI 2026年02月13日 0 点赞 0 评论 9 浏览