Big Data

Apache Polaris 从入门到精通

Iceberg Rest Catalog 在介绍 Polaris 之前，先介绍下 Iceberg 的 Rest catalog。 Iceberg 支持众多 catalog，比如 H…

2024年10月29日

1690

Big Data

本文深入探讨了 ORC 和 Parquet 这两种主流数据湖文件格式的异同。从文件结构、类型系统、NULL处理到复杂类型存储，文章全面比较了两种格式的设计理念和实现细节。特别关注了统计信息的存储、随机 IO 性能、Footer 大小以及 Schema Evolution 支持等关键方面。虽然Parquet 在当前市场占据优势，但文章指出两种格式各有千秋，选择应基于具体使用场景。通过这篇深度分析，读者可以更好地理解这两种格式的优缺点，为数据湖存储方案的选择提供有价值的参考。

2024年8月10日

8132

Big Data

Apache ORC 加密解析

Apache ORC 支持对列进行加密，且会对该列的统计信息一起加密。同时加密后的文件，即使 reader 没有正确的 master key 也能够正常的查看，只不过看到的都是错误…

2024年7月7日

2760

Big Data

RLE 编码在 Apache ORC 中的实现

介绍 Apache ORC 中 RLE v1 和 RLE v2 的具体算法实现。

2024年6月8日

4122

Big Data

浅谈 Apache ORC 之 Decimal 存储

Decimal 在 Apache ORC 存储主要是依赖 zigzag 编码，zigzag 编码能有效的压缩绝对值小的数字。

2024年5月5日

3001

Big Data

浅谈 HDFS 慢节点的解决方案

在优化 HDFS 查询性能时，慢节点问题会显著影响 SQL 的查询效率。本文浅谈了目前解决 HDFS 慢节点的几种思路。

2024年3月25日

1.3K3

Big Data

Spark-SQL 有用的 SQL

我发现自己每次用 Spark 造 Iceberg 表都要耗费老大的劲，官方文档总是没有一个现成的 Demo，网上也搜索不到，全靠自己琢磨。故在这里记录一下，顺带帮助一下可能需要的人…

2023年11月12日

1.2K3

Big Data

HDFS Hedged Read 的利弊分析

HDFS Hedged read 是一种优化 HDFS 客户端读取文件性能的方法。它会在存在慢节点的情况下，通过申请多个内存来提高读取性能。但是，由于 Hedged read 会频繁申请内存，可能会导致内存消耗过大，从而影响系统性能。因此，HDFS 并没有默认开启 Hedged read 功能。在使用 Hedged read 时，需要注意内存消耗的问题，以避免对系统性能造成负面影响。

2023年11月12日

8441

Big Data

Trino / StarRocks 阿里云 EMR Kerberos 认证指南

Kerberos 是最为头疼的鉴权配置，但是 Hadoop 全家桶绕不开，只能硬着头皮干了。本文以 Trino 和 StarRocks 为例，讲述如何在非 EMR 的节点上，通过一…

2023年8月21日

1.0K0

Big Data

HTrace 与 Zipkin 简单教程

最近阅读 HDFS 的源码，看到在 DFSClient 中很多地方用到了 HTrace 这款框架，所以特意学习下。 HTrace 是一款由 Cloudera 开发的分布式追踪框架，…

2021年1月21日

1.9K0