LakeHouse

  • HDFS Hedged Read 的利弊分析

    HDFS Hedged read 是一种优化 HDFS 客户端读取文件性能的方法。它会在存在慢节点的情况下,通过申请多个内存来提高读取性能。但是,由于 Hedged read 会频繁申请内存,可能会导致内存消耗过大,从而影响系统性能。因此,HDFS 并没有默认开启 Hedged read 功能。在使用 Hedged read 时,需要注意内存消耗的问题,以避免对系统性能造成负面影响。

    2023年11月12日
    9362
  • Trino / StarRocks 阿里云 EMR Kerberos 认证指南

    Kerberos 是最为头疼的鉴权配置,但是 Hadoop 全家桶绕不开,只能硬着头皮干了。本文以 Trino 和 StarRocks 为例,讲述如何在非 EMR 的节点上,通过一…

    2023年8月21日
    1.1K0
  • HTrace 与 Zipkin 简单教程

    最近阅读 HDFS 的源码,看到在 DFSClient 中很多地方用到了 HTrace 这款框架,所以特意学习下。 HTrace 是一款由 Cloudera 开发的分布式追踪框架,…

    2021年1月21日
    1.9K0
  • 解决 IDEA 阅读 Hadoop 源码报错问题

    最近阅读 Hadoop 源码,使用 IDEA 打开 Hadoop,正常导入 maven 依赖后,发现某些类里面总是会报各种类不存在的错误,如下图: 一开始以为是因为我配置了国内 m…

    2020年12月28日
    1.8K1
  • Hadoop 完全分布式(Fully Distributed)安装

    本篇文章主要介绍如何搭建完全分布式的 Hadoop 集群,介于 Hadoop 配置复杂,特此写下此篇文章记录。 基础准备 这一次我使用三台服务器组建一个 Hadoop 集群,三台机…

    2019年10月6日
    1.1K0