-
Apache Polaris 从入门到精通
Iceberg Rest Catalog 在介绍 Polaris 之前,先介绍下 Iceberg 的 Rest catalog。 Iceberg 支持众多 catalog,比如 H…
-
How to deploy StarRocks with IAM enabled in AWS EKS?
Here are notes about how to deploy StarRocks with IAM enabled. Below commands are executed…
-
ORC vs Parquet,孰强孰弱?
本文深入探讨了 ORC 和 Parquet 这两种主流数据湖文件格式的异同。从文件结构、类型系统、NULL处理到复杂类型存储,文章全面比较了两种格式的设计理念和实现细节。特别关注了统计信息的存储、随机 IO 性能、Footer 大小以及 Schema Evolution 支持等关键方面。虽然Parquet 在当前市场占据优势,但文章指出两种格式各有千秋,选择应基于具体使用场景。通过这篇深度分析,读者可以更好地理解这两种格式的优缺点,为数据湖存储方案的选择提供有价值的参考。
-
Apache ORC 加密解析
Apache ORC 支持对列进行加密,且会对该列的统计信息一起加密。同时加密后的文件,即使 reader 没有正确的 master key 也能够正常的查看,只不过看到的都是错误…
-
RLE 编码在 Apache ORC 中的实现
介绍 Apache ORC 中 RLE v1 和 RLE v2 的具体算法实现。
-
浅谈 Apache ORC 之 Decimal 存储
Decimal 在 Apache ORC 存储主要是依赖 zigzag 编码,zigzag 编码能有效的压缩绝对值小的数字。
-
C++ 函数虚表 Virtual Table
之前老是搞不明白这个八股,后面有幸看到 The virtual table 这篇文章,终于搞明白了,特此记录一下。 C++ 标准从来没有规定过如何实现虚函数,都是由编译器自行实现。…
-
自适应 Cache 之 Starburst Warp Speed
Starburst 的 Warp Speed 技术利用机器学习算法,为 Trino 查询自动预热数据,显著提升性能。本文通过对 Warp Speed 架构的解析,来说明如何在 Lakehouse 中做好 cache 这个特性。
-
浅谈 HDFS 慢节点的解决方案
在优化 HDFS 查询性能时,慢节点问题会显著影响 SQL 的查询效率。本文浅谈了目前解决 HDFS 慢节点的几种思路。
-
StarRocks 华为云 OBS 配置
介绍如何正确配置 StarRocks,使其能够正常访问华为云的 OBS 和并行文件系统。