• 假如我还有三天假期

    n 年不遇的 gap,即将迎来了尾声,写下这篇日记的时候,假期余额已不足3天。 要我评价这 15 天的 gap,我只能说一个字,爽,两个字,真爽。自打毕业后,就没这么爽过了。 前几…

    2025年1月4日
    790
  • 从 StarRocks 离开,再出发

    雄关漫道真如铁,而今迈步从头越 写于 2024 年 12 月 20 日礼拜五 last day,StarRocks 杭州办公室的会议室中。 用流水账记录一下这两年发生的事情以及最近…

    2024年12月25日
    3679
  • Apache Parquet Bloom Filter

    Bloom Filter 只能处理 =,IN 谓词。 什么是 Bloom Filter? Bloom Filter 是用于判断某个元素是否在一个集合中的数据结构,优点是空间效率和查…

    2024年11月23日
    1351
  • Apache Parquet ZoneMap 过滤支持小记

    前置背景 ZoneMap Min-max 过滤也叫 ZoneMap 过滤。 一个 ZoneMap 一般包含如下信息: Parquet 的 ZoneMap 含有: ORC 的 Zon…

    2024年11月23日
    1100
  • 最近日子过的是一团“浆糊”

    写在假期的尾巴,即礼拜天的晚上: 自从工作后,自己貌似逐渐失去了学生时代对代码的激情。不过也不是说就不喜欢代码,只是纯粹到了周六日,啥事不想干,就想爽玩! 这一年不知道是不是因为 …

    2024年11月17日
    2215
  • AWS S3 virtual-hosted-style 与 path-style 的区别

    简单的介绍 aws s3 virtual-hosted-style 和 path-style 的区别。

    2024年11月8日
    2552
  • Apache Polaris 从入门到精通

    Iceberg Rest Catalog 在介绍 Polaris 之前,先介绍下 Iceberg 的 Rest catalog。 Iceberg 支持众多 catalog,比如 H…

    2024年10月29日
    5400
  • How to deploy StarRocks with IAM enabled in AWS EKS?

    Here are notes about how to deploy StarRocks with IAM enabled. Below commands are executed…

    2024年9月9日
    3410
  • ORC vs Parquet,孰强孰弱?

    本文深入探讨了 ORC 和 Parquet 这两种主流数据湖文件格式的异同。从文件结构、类型系统、NULL处理到复杂类型存储,文章全面比较了两种格式的设计理念和实现细节。特别关注了统计信息的存储、随机 IO 性能、Footer 大小以及 Schema Evolution 支持等关键方面。虽然Parquet 在当前市场占据优势,但文章指出两种格式各有千秋,选择应基于具体使用场景。通过这篇深度分析,读者可以更好地理解这两种格式的优缺点,为数据湖存储方案的选择提供有价值的参考。

    2024年8月10日
    1.2K2
  • Apache ORC 加密解析

    Apache ORC 支持对列进行加密,且会对该列的统计信息一起加密。同时加密后的文件,即使 reader 没有正确的 master key 也能够正常的查看,只不过看到的都是错误…

    2024年7月7日
    3820
点击查看更多