压缩

Parquet 与 ORC 存储格式与压缩优化(2025)

Parquet 与 ORC 存储格式与压缩优化(2025)Parquet 与 ORC 是主流列式存储格式,广泛用于湖仓与离线分析场景。一、格式与编码列式存储:按列组织数据,提升扫描与压缩效率。编码:字典/Run-Length/位图等编码降低存储与 IO。二、压缩与性能压缩算法:ZSTD/Snappy