优化

Parquet 与 ORC 存储格式与压缩优化(2025)

Parquet 与 ORC 存储格式与压缩优化(2025)Parquet 与 ORC 是主流列式存储格式,广泛用于湖仓与离线分析场景。一、格式与编码列式存储:按列组织数据,提升扫描与压缩效率。编码:字典/Run-Length/位图等编码降低存储与 IO。二、压缩与性能压缩算法:ZSTD/Snappy

OpenSearch 索引与查询优化(2025)

OpenSearch 索引与查询优化(2025)一、索引与映射字段类型:合理设置 keyword/text 与 analyzer,避免动态映射污染。映射治理:统一禁用危险动态字段,控制索引体积。二、分片与副本分片数:按数据规模与并发设定,避免过多小分片。副本:平衡读取性能与写入开销与容错。三、查询与

OpenSearch k-NN 向量检索与参数优化(2025)

OpenSearch k-NN 向量检索与参数优化(2025)一、索引与配置HNSW:设置 `m`/`ef_construction`;匹配向量维度与度量。索引映射:声明 `knn_vector` 字段与度量(cosine/L2)。二、查询与优化efSearch:提升召回的同时控制延迟;按查询类型动