运维
Kubernetes节点维护:cordon/drain与升级治理
规范节点维护流程,使用 cordon/drain 与 PDB/优雅终止确保升级与故障处置的稳定与可回滚。
W3C Trace Context与Baggage:跨服务追踪标准
采用标准化的 Trace Context 与 Baggage 头,在跨服务调用链中传递追踪与业务上下文。
Prometheus与Grafana:指标采集与可视化
构建基于拉取模型的指标采集与告警体系,并通过 Grafana 进行可视化与分析。
OpenTelemetry语义约定:HTTP/DB/云资源统一命名
按 OTel 语义约定统一命名与属性,提升跨语言与后端的观测一致性与可视化能力。
OpenTelemetry Exemplars:Trace到Metrics关联实践
通过 Exemplars 将关键 Trace ID 附着到 Metrics 样本,实现从指标到具体请求的快速跳转与根因定位。
OpenSearch索引状态管理ISM与Alerting治理
使用 ISM 管理索引生命周期与策略,并结合 Alerting 构建指标与告警治理,提升可用性与成本效率。
