Apache Parquet

  • Apache Parquet Bloom Filter

    Bloom Filter 只能处理 =,IN 谓词。 什么是 Bloom Filter? Bloom Filter 是用于判断某个元素是否在一个集合中的数据结构,优点是空间效率和查…

    2024年11月23日
    771
  • Apache Parquet ZoneMap 过滤支持小记

    前置背景 ZoneMap Min-max 过滤也叫 ZoneMap 过滤。 一个 ZoneMap 一般包含如下信息: Parquet 的 ZoneMap 含有: ORC 的 Zon…

    2024年11月23日
    600
  • ORC vs Parquet,孰强孰弱?

    本文深入探讨了 ORC 和 Parquet 这两种主流数据湖文件格式的异同。从文件结构、类型系统、NULL处理到复杂类型存储,文章全面比较了两种格式的设计理念和实现细节。特别关注了统计信息的存储、随机 IO 性能、Footer 大小以及 Schema Evolution 支持等关键方面。虽然Parquet 在当前市场占据优势,但文章指出两种格式各有千秋,选择应基于具体使用场景。通过这篇深度分析,读者可以更好地理解这两种格式的优缺点,为数据湖存储方案的选择提供有价值的参考。

    2024年8月10日
    1.0K2