今天阳光很暖
关于 HDFS 中小文件的处理方式 关于 HDFS 中小文件的处理方式
1. 介绍在Hadoop应用过程中,处理小文件问题是一项常见的挑战。由于HDFS主要针对大型数据集(M字节以上)设计,大量小文件的出现可能导致Namenode内存使用效率下降、RPC调用速度减慢、block扫描处理速度降低,从而影响整个应用
2021-11-14
一次HDFS balance的记录 一次HDFS balance的记录
背景前段时间由于集群磁盘吃紧做了一次对HDFS上文件副本缩减的操作,导致集群的DataNode间数据不均衡,所以需要做一次rebalance。 1. balance参数介绍hdfs balancer –help table {
2019-08-30
HDFS 负载均衡策略 HDFS 负载均衡策略
1. Hadoop HDFS介绍Hadoop 分布式文件系统(Hadoop Distributed File System),简称 HDFS,被设计成适合运行在通用硬件上的分布式文件系统。它和现有的分布式文件系统有很多的共同点。HDFS 是
2019-08-29
HDFS文件未关闭导致锁定异常排除 HDFS文件未关闭导致锁定异常排除
1.检查失败任务java.io.IOException: Cannot obtain block length for LocatedBlock 问题 集群重启 文件还在打开状态 问题解决 [hdpusr@prdclt api]$ hado
2018-03-21
HDFS 中常见的数据格式 2.面向列的文件格式介绍 HDFS 中常见的数据格式 2.面向列的文件格式介绍
1. 列式存储列式存储, 顾名思义就是按照列进行存储, 把某一列的数据连续的存储, 每一行中的不同列的值离散分布, 列式存储技术并不新鲜, 在关系数据库中都已经在使用, 尤其是在针对OLAP场景下的数据存储, 由于OLAP场景下的数据大部分
2017-09-03
HDFS 中常见的数据格式 1.面向行的文件格式介绍 HDFS 中常见的数据格式 1.面向行的文件格式介绍
1. 概述hadoop 中的文件格式大致分为面向行与面向列两类 面向行 同一行的数据存储在一起, 即连续存储, 如 SequenceFile、 MapFile、Avro DataFile 都采用面向行的方式存储 如果只需要访问行的一
2017-08-29
HDFS 回收站功能介绍 HDFS 回收站功能介绍
1. 介绍 hadoop 的回收站trash功能默认是关闭的,所以需要在core-site.xml中手动开启 在HDFS里,删除文件时,不会真正的删除,其实是放入回收站 /trash 回收站里的文件可以快速恢复 可以设置一个时间阈值
2016-04-01
初识 HDFS 初识 HDFS
1. 什么是分布式文件系统 数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统(Distributed Fil
2015-06-04