压缩

Parquet 与 ORC 存储格式与压缩优化(2025)

Parquet 与 ORC 存储格式与压缩优化(2025)Parquet 与 ORC 是主流列式存储格式,广泛用于湖仓与离线分析场景。一、格式与编码列式存储:按列组织数据,提升扫描与压缩效率。编码:字典/Run-Length/位图等编码降低存储与 IO。二、压缩与性能压缩算法:ZSTD/Snappy

Kafka 保留与压缩策略治理(2025)

Kafka 保留与压缩策略治理(2025)Kafka 的保留与压缩配置影响成本与查询与一致性,需要按业务治理。一、保留与分段retention.ms:控制时间保留与容量规划。segment.bytes:设定分段大小,平衡文件数量与恢复时长。二、压缩与键cleanup.policy:`delete`