科技资讯

Parquet 与 ORC 存储格式与压缩优化(2025)

# Parquet 与 ORC 存储格式与压缩优化(2025) Parquet 与 ORC 是主流列式存储格式,广泛用于湖仓与离线分析场景。 ## 一、格式与编码 - 列式存储:按列组织数据,提升扫描与压缩效率。 - 编码:字典/Run-Length/位图等编码降低存储与 IO。 ## 二、压缩与性能 - 压缩算法:ZSTD/Snappy/Gzip 按场景选型,权衡压缩比与速度。 - 列裁剪