今天阳光很暖
SparkSQL读取HBase数据 SparkSQL读取HBase数据
介绍这里的 SparkSQL 是指整合了 Hive 的 spark-sql cli,本质上就是通过Hive访问HBase表,具体就是通过hive-hbase-handler。 环境说明hadoop-2.3.0-cdh5.0.0 apache
2018-09-11
Apache Spark 2.0中DataFrames 和 SQL 2 Apache Spark 2.0中DataFrames 和 SQL 2
本文第一部分使用了无类型的 DataFrame API,其中每行都表示一个Row对象。在下面的内容中,我们将使用更新的 DatasetAPI。Dataset 是在 Apache Spark 1.6 中引入的,并已在 Spark 2.0 中使
2018-09-07
Apache Spark 2.0中 DataFrames 和 SQL Apache Spark 2.0中 DataFrames 和 SQL
Spark 2.0开发的一个动机是让它可以触及更广泛的受众,特别是缺乏编程技能但可能非常熟悉SQL的数据分析师或业务分析师。因此,Spark 2.0现在比以往更易使用。在这部分,我将介绍如何使用Apache Spark 2.0。并将重点关注
2018-09-06
将 ES 中的数据导入 HIVE 操作记录 将 ES 中的数据导入 HIVE 操作记录
1. 环境设置12345678# 设置允许动态分区set hive.exec.dynamic.partition.mode=nonstrict;# 切换库use stage;# 添加依赖 jaradd jar hdfs://node1:80
2018-09-01
Spark SQL 6.资源动态划分 Spark SQL 6.资源动态划分
1. spark的动态资源划分 动态资源划分,是指在spark当中用于对计算的时候资源,如果不够或者资源剩余的情况下进行动态的资源划分,以求资源的利用率达到最大 Spark中的资源单位一般指的是executors,和Yarn中的Conta
2018-06-23
Spark SQL 5.调优 Spark SQL 5.调优
1. 数据缓存性能调优主要是将数据放入内存中操作,spark缓存注册表的方法 缓存spark表 1spark.catalog.cacheTable("tableName") 释放缓存表 1spark.catalog.uncache
2018-06-15
Spark SQL 4.架构介绍 Spark SQL 4.架构介绍
1. SparkSQL架构介绍 SparkSQL 是spark技术栈当中又一非常实用的模块, SparkSQL 通过引入SQL的支持,大大降低了学习成本,让我们开发人员直接使用SQL的方式就能够实现大数据的开发, SparkSQL 同时支持
2018-06-05
Spark SQL 3.Hive On Spark Spark SQL 3.Hive On Spark
1. Spark on hive 与 Hive on Spark 的区别 Spark on hive Spark通过Spark-SQL使用hive 语句操作hive,底层运行的还是 spark rdd 就是通过sparksql,加载hi
2018-05-29
倒排索引 倒排索引
1. 介绍倒排索引源于实际应用中需要根据属性的值来查找记录。 这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。 由于不是由记录来确定属性值, 而是由属性值来确定记录的位置, 因而称为倒排索引(inverted index)
2018-05-29
Spark SQL 2.自定义函数 Spark SQL 2.自定义函数
1. SparkSQL 中自定义函数类型在 Spark SQL 中,用户自定义函数(User-Defined Function,简称 UDF)是一种特殊的函数,允许用户定义自己的逻辑来处理数据。这些函数可以直接在 Spark SQL 查询中
2018-05-25
Spark SQL 1. 常见概念与基本操作 Spark SQL 1. 常见概念与基本操作
1. SparkSQL 概述1.1 Shark Shark 是 Databricks 开发出专门针对于spark的构建大规模数据仓库系统的一个框架 Shark 与 Hive 兼容,同时也依赖于Spark版本 Shark是把sql语句解析
2018-05-21
Spark SQL 自适应执行实践 Spark SQL 自适应执行实践
本文作者是 :王愈舟、俞育才、郭晨钊、程浩(英特尔)、李元健(百度) 1. Spark SQL 介绍Spark SQL 是 Apache Spark 最广泛使用的一个组件,它提供了非常友好的接口来分布式处理结构化数据,在很多应用领域都有成功
2018-05-20
16 / 24