Smith

  • Apache ORC 加密解析

    Apache ORC 支持对列进行加密,且会对该列的统计信息一起加密。同时加密后的文件,即使 reader 没有正确的 master key 也能够正常的查看,只不过看到的都是错误…

    2024年7月7日
    4380
  • RLE 编码在 Apache ORC 中的实现

    介绍 Apache ORC 中 RLE v1 和 RLE v2 的具体算法实现。

    2024年6月8日
    7212
  • 浅谈 Apache ORC 之 Decimal 存储

    Decimal 在 Apache ORC 存储主要是依赖 zigzag 编码,zigzag 编码能有效的压缩绝对值小的数字。

    2024年5月5日
    4111
  • C++ 函数虚表 Virtual Table

    之前老是搞不明白这个八股,后面有幸看到 The virtual table 这篇文章,终于搞明白了,特此记录一下。 C++ 标准从来没有规定过如何实现虚函数,都是由编译器自行实现。…

    2024年5月3日
    6761
  • 自适应 Cache 之 Starburst Warp Speed

    Starburst 的 Warp Speed 技术利用机器学习算法,为 Trino 查询自动预热数据,显著提升性能。本文通过对 Warp Speed 架构的解析,来说明如何在 Lakehouse 中做好 cache 这个特性。

    2024年4月21日
    3430
  • 浅谈 HDFS 慢节点的解决方案

    在优化 HDFS 查询性能时,慢节点问题会显著影响 SQL 的查询效率。本文浅谈了目前解决 HDFS 慢节点的几种思路。

    2024年3月25日
    1.9K3
  • StarRocks 华为云 OBS 配置

    介绍如何正确配置 StarRocks,使其能够正常访问华为云的 OBS 和并行文件系统。

    2024年3月2日
    1.3K5
  • Spark-SQL 有用的 SQL

    我发现自己每次用 Spark 造 Iceberg 表都要耗费老大的劲,官方文档总是没有一个现成的 Demo,网上也搜索不到,全靠自己琢磨。故在这里记录一下,顺带帮助一下可能需要的人…

    2023年11月12日
    1.5K3
  • HDFS Hedged Read 的利弊分析

    HDFS Hedged read 是一种优化 HDFS 客户端读取文件性能的方法。它会在存在慢节点的情况下,通过申请多个内存来提高读取性能。但是,由于 Hedged read 会频繁申请内存,可能会导致内存消耗过大,从而影响系统性能。因此,HDFS 并没有默认开启 Hedged read 功能。在使用 Hedged read 时,需要注意内存消耗的问题,以避免对系统性能造成负面影响。

    2023年11月12日
    1.2K2
  • StarRocks 常见疑难杂症

    本文简单梳理一下自己在使用 StarRocks 时遇到的一些疑难杂症,仅供参考,本文会持续更新。 问题列表 ERROR 1064 (HY000): BE access S3 fil…

    2023年10月28日
    1.4K0