告警

Kubernetes 事件与告警治理(2025)

Kubernetes 事件与告警治理(2025)Kubernetes 的事件与指标是集群健康的信号,需要统一治理与响应流程。一、事件与指标Events:采集 Pod/Node/Controller 的关键事件。指标:CPU/内存/网络与自定义业务指标联合监控。二、阈值与抑制阈值:基于 SLO 与窗口

Prometheus 指标设计与告警策略(2025)

Prometheus 指标设计与告警策略(2025)Prometheus 支撑统一指标采集与告警,需要在指标质量与规则上治理。一、指标与语义指标分层:核心/次级/警戒指标明确语义与用途。标签治理:控制维度基数,避免存储膨胀与查询慢。二、采样与聚合抽样与时窗:选择合适抓取间隔与聚合时窗,兼顾实时与成本