--- title: Parquet与ORC:列式存储与压缩编码 keywords: - Parquet - ORC - 列存储 - 字典编码 - 压缩 - 谓词下推 description: 比较两大列式存储格式在编码、压缩与查询裁剪上的差异,指导数据湖与分析场景选型。 categories: - 文章资讯 - 编程技术 --- # Parquet与ORC:列式存储与压缩编码 ## 概览 列式存储在分析场景具备显著优势。Parquet 与 ORC 在编码与元数据上有差异,影响压缩与查询裁剪效果。 ## 技术参数(已验证) - 编码:字典/位图/RLE 等编码降低存储;列式压缩提升 IO 效率。 - 裁剪:谓词下推依赖统计与页/块元数据;分区/排序进一步提升裁剪。 - 生态:Parquet 在多引擎中广泛支持;ORC 在 Hadoop 生态中深度集成。 ## 实战清单 - 按字段分布选择编码与压缩;对高选择性字段优化字典与索引。 - 结合分区/聚簇与排序键设计物理布局。

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论
立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部