# Airflow DAG 可靠性与调度(重试、并发、队列与 Sensor) ## 关键实践与参数 - 任务重试:`retries` 与 `retry_delay`;指数退避与最大重试窗口。 - 并发与队列:`dag_concurrency`、`max_active_runs` 与队列隔离资源。 - Sensor:使用 `ExternalTaskSensor`/`S3KeySensor` 等阻塞型需 `reschedule` 模式降低占用。 - 失败通知:On-failure 回调与告警渠道;审计上下文记录。 ## 验证方法 - 演练上游失败与延迟;观察 Sensor 与重试行为。 - 指标与日志:任务耗时、重试次数、队列堆积与 SLA 违约。 - 压测 DAG 并发;评估资源瓶颈与调度延迟。 ## 注意事项 - 资源与连接管理;避免长时间持有数据库连接。 - 定期归档日志与任务元数据,控制存储成本。 - DAG 版本化与回滚策略,保障快速恢复。

发表评论 取消回复