Smith
-
Apache ORC 加密解析
Apache ORC 支持对列进行加密,且会对该列的统计信息一起加密。同时加密后的文件,即使 reader 没有正确的 master key 也能够正常的查看,只不过看到的都是错误…
-
RLE 编码在 Apache ORC 中的实现
介绍 Apache ORC 中 RLE v1 和 RLE v2 的具体算法实现。
-
浅谈 Apache ORC 之 Decimal 存储
Decimal 在 Apache ORC 存储主要是依赖 zigzag 编码,zigzag 编码能有效的压缩绝对值小的数字。
-
C++ 函数虚表 Virtual Table
之前老是搞不明白这个八股,后面有幸看到 The virtual table 这篇文章,终于搞明白了,特此记录一下。 C++ 标准从来没有规定过如何实现虚函数,都是由编译器自行实现。…
-
自适应 Cache 之 Starburst Warp Speed
Starburst 的 Warp Speed 技术利用机器学习算法,为 Trino 查询自动预热数据,显著提升性能。本文通过对 Warp Speed 架构的解析,来说明如何在 Lakehouse 中做好 cache 这个特性。
-
浅谈 HDFS 慢节点的解决方案
在优化 HDFS 查询性能时,慢节点问题会显著影响 SQL 的查询效率。本文浅谈了目前解决 HDFS 慢节点的几种思路。
-
StarRocks 华为云 OBS 配置
介绍如何正确配置 StarRocks,使其能够正常访问华为云的 OBS 和并行文件系统。
-
Spark-SQL 有用的 SQL
我发现自己每次用 Spark 造 Iceberg 表都要耗费老大的劲,官方文档总是没有一个现成的 Demo,网上也搜索不到,全靠自己琢磨。故在这里记录一下,顺带帮助一下可能需要的人…
-
HDFS Hedged Read 的利弊分析
HDFS Hedged read 是一种优化 HDFS 客户端读取文件性能的方法。它会在存在慢节点的情况下,通过申请多个内存来提高读取性能。但是,由于 Hedged read 会频繁申请内存,可能会导致内存消耗过大,从而影响系统性能。因此,HDFS 并没有默认开启 Hedged read 功能。在使用 Hedged read 时,需要注意内存消耗的问题,以避免对系统性能造成负面影响。
-
StarRocks 常见疑难杂症
本文简单梳理一下自己在使用 StarRocks 时遇到的一些疑难杂症,仅供参考,本文会持续更新。 问题列表 ERROR 1064 (HY000): BE access S3 fil…