今天阳光很暖
11
28
27
SparkSQL通过SHC高效读写访问HBase SparkSQL通过SHC高效读写访问HBase
一、概述Apache Spark 和Apache HBase 是两个使用比较广泛的大数据组件。很多场景需要使用Spark分析/查询Hbase中的数据,而目前Spark内置是支持很多数据源的,其中就包括了HBase,但是内置的读取数据源还是使
2019-11-27
20
15
03
10
10
08
09
16
Flink 初探 Flink 初探
本文针对flink1.3做的记录。 1. Flink简介Flink官网:https://flink.apache.org/ Flink中文文档地址(目前翻译了大部分):http://flink-cn.shinonomelab.com/ 首先
2019-09-16
11
08
30
一次HDFS balance的记录 一次HDFS balance的记录
背景前段时间由于集群磁盘吃紧做了一次对HDFS上文件副本缩减的操作,导致集群的DataNode间数据不均衡,所以需要做一次rebalance。 1. balance参数介绍12hdfs balancer –help table {
2019-08-30
29
HDFS 负载均衡策略 HDFS 负载均衡策略
1. Hadoop HDFS介绍Hadoop 分布式文件系统(Hadoop Distributed File System),简称 HDFS,被设计成适合运行在通用硬件上的分布式文件系统。它和现有的分布式文件系统有很多的共同点。HDFS 是
2019-08-29
26
Spark  任务调度解析 Spark 任务调度解析
1. Spark任务调度流程图 2 DAGScheduler2.1 DAGScheduler 介绍 DAG:Directed Acyclic Graph ,有向无环图 高级调度器,面向阶段调度。(map阶段、reduce阶段)(st
2019-08-26
13 / 24