Kubernetes GPU设备插件与资源调度治理概览设备插件暴露 GPU 资源;通过资源请求/限制与亲和控制分配;考虑拓扑与 NUMA。技术参数(已验证)设备插件:NVIDIA Device Plugin 暴露 `nvidia.com/gpu`;支持 MIG 分片;在 DaemonSet 部署。资源请求:为 Pod 设置 `resources.requests/limits`;避免超卖;按租户隔离。拓扑亲和:结合 `TopologyManager` 与 `nodeAffinity`/`podAntiAffinity`;在多 GPU 节点优化内存与带宽。驱动与容器:启用 `nvidia-container-runtime`;镜像与驱动匹配;记录兼容矩阵。观测:记录 GPU 使用率/显存与温度;告警与自动调度。实战清单部署设备插件与监控;根据作业类型选择 MIG 与分片。在调度层设置亲和与隔离;避免资源争用与抖动。建立驱动/镜像台账与升级/回滚流程。

发表评论 取消回复