今天阳光很暖
Spark SQL 2.自定义函数 Spark SQL 2.自定义函数
1. SparkSQL 中自定义函数类型在 Spark SQL 中,用户自定义函数(User-Defined Function,简称 UDF)是一种特殊的函数,允许用户定义自己的逻辑来处理数据。这些函数可以直接在 Spark SQL 查询中
2018-05-25
Spark SQL 1. 常见概念与基本操作 Spark SQL 1. 常见概念与基本操作
1. SparkSQL 概述1.1 Shark Shark 是 Databricks 开发出专门针对于spark的构建大规模数据仓库系统的一个框架 Shark 与 Hive 兼容,同时也依赖于Spark版本 Shark是把sql语句解析
2018-05-21
Spark SQL 自适应执行实践 Spark SQL 自适应执行实践
本文作者是 :王愈舟、俞育才、郭晨钊、程浩(英特尔)、李元健(百度) 1. Spark SQL 介绍Spark SQL 是 Apache Spark 最广泛使用的一个组件,它提供了非常友好的接口来分布式处理结构化数据,在很多应用领域都有成功
2018-05-20
Spark Streaming 7. Structured Streaming 入门 Spark Streaming 7. Structured Streaming 入门
本文转自:Spark结构式流编程指南 1. 概览Structured Streaming 是一个可拓展,容错的,基于 Spark SQL 执行引擎的流处理引擎。使用小量的静态数据模拟流处理。伴随流数据的到来,SparkSQL 引擎会逐渐连续
2018-04-15
Spark Streaming 6. Exactly-Once解决方案 Spark Streaming 6. Exactly-Once解决方案
1 Exactly-Once事务处理1.1 什么是Exactly-Once事务?数据仅处理一次并且仅输出一次,这样才是完整的事务处理。 以银行转帐为例,A用户转账给B用户,B用户可能收到多笔钱,保证事务的一致性,也就是说事务输出,能够输出且
2018-04-10
Spark Streaming 5. 容错语义 Spark Streaming 5. 容错语义
1. 容错语义的背景要理解Spark Streaming所提供的容错语义,我们首先需要回忆一下Spark RDD所提供的基本容错语义。 RDD是不可变的,可重算的,分布式数据集。每个RDD都记录了其创建算子的依赖信息,其中每个算子都以可容
2018-03-15
Spark Streaming 4. 程序部署监控调优 Spark Streaming 4. 程序部署监控调优
1. 部署应用要运行一个Spark Streaming 应用,你首先需要具备以下条件: 集群以及集群管理器 – 这是一般Spark应用的基本要求,详见 deployment guide。 给Spark应用打个JAR包 –
2018-03-09
Spark Streaming 3. 数据广播与检查点 Spark Streaming 3. 数据广播与检查点
1. 缓存/持久化和RDD类似, DStream也支持将数据持久化到内存中, 只需要调用DStream的persist()方法, 该方法内部会调用DStream中每个RDD的persist()方法, 进而将数据持久化到内存中, 这对于可能需
2018-03-04
Spark Streaming 2. DStream 介绍 Spark Streaming 2. DStream 介绍
1. DStreams(离散数据流)离散数据流(DStream) 是spark Streaming最基本的抽象,它代表了一种连续的数据流,要么从某种数据源提取数据,要么从其他数据流映射转换而来。DStream内部是由一系列连续的RDD 组成
2018-02-26
Spark Streaming 1. 介绍 Spark Streaming 1. 介绍
1. 介绍Spark Streamingspark streaming 是 spark 核心 api 的扩展,支持可扩展,高吞吐量,实时数据流的容错处理,数据可以从 kafka,flume,Kinesis 或者 TCP socket 中获取
2018-02-24
Spark 常用参数解析 Spark 常用参数解析
1. shuffle 相关参数1.1 spark.shuffle.manager spark 1.2 官方支持两种shuffle ,即 HashBasedShuffle 和 SortBasedShuffle , spark1.0之前仅支持
2018-02-15
Spark 常用配置参数 Spark 常用配置参数
Spark 中大部分配置参数都有默认值,以下是常用配置: 1. Application Properties 属性 默认值 描述 spark.app.name (none) 应用程序的名称,会在日志和webUI显示 spark
2018-02-07
4 / 5