今天阳光很暖
Spark 操作ES报错 Failed to find data source Spark 操作ES报错 Failed to find data source
1. 异常描述将服务部署到一个新的服务器上抛出了一个关于 ES的 ClassNotFoundException 异常 java.lang.ClassNotFoundException: Failed to find data source:
2023-08-10
Spark 数据倾斜分析与解决思路 Spark 数据倾斜分析与解决思路
1. 背景介绍数据倾斜是在大数据计算中,经常会面临一个非常棘手的问题。数据倾斜会导致 Spark 作业性能大幅下降,这远远低于我们的期望。为了确保 Spark 作业的高性能,我们需要进行数据倾斜调优。数据倾斜调优是一项复杂的任务,需要采用多
2022-08-08
Spark Submit 提交任务抛出 IllegalAccessError Spark Submit 提交任务抛出 IllegalAccessError
1. 运行环境 组件 版本 Ambari 2.7.6 Spark 2.3.2 HDFS 3.1.1 2. 提交任务报错信息如下: 使用 spark-submit 提交任务时报错信息 java.lang.Illegal
2022-05-15
spark-sql Required-field-'filesAdded'-is-unset spark-sql Required-field-'filesAdded'-is-unset
1. 背景使用sparkSQL计算数据向一个已经存在数据的分区中写数据报错 使用版本: Spark2 2.3.2 Hive 3.1.0 错误信息如下: org.apache.spark.sql.AnalysisException: or
2019-12-26
SparkML中关联规则的应用 SparkML中关联规则的应用
1. 概念什么是关联规则?(Association Rules) 关联规则是数据挖掘中的概念, 通过分析数据, 找到数据之间的关联, 电商中经常用来分析购买商品之间的相关性, 例如,”购买尿布的用户 有大概率购买啤酒”, 这就是一个关联规
2019-12-24
Spark中parallelize函数和makeRDD函数的区别 Spark中parallelize函数和makeRDD函数的区别
我们知道,在Spark中RDD的创建方式大概可以分为三种: 从集合中创建RDD, 从外部存储中创建RDD, 从其他RDD创建 而从集合中创建RDD,Spark主要提供了两种函数:parallelize 和 makeRDD。我们可以先看看
2019-12-18
SparkSQL读取Excel数据源——spark-excel SparkSQL读取Excel数据源——spark-excel
在Github上面看到一个针对SparkSQL加载Excel数据源的开源组件,拿过来测试了一下spark-excel 1.Spark Excel库用于使用Apache Spark查询Excel文件的库,用于Spark SQL和DataFra
2019-12-13
yarn-cluster 和 yarn-client 区别 yarn-cluster 和 yarn-client 区别
1. 介绍我们都知道spark支持在yarn上运行,但是spark on yarn 又分为两种模式,yarn-cluster和yarn-client,它们究竟有什么区别与关联呢? spark支持可插拔的集群管理模式(standalone,
2019-12-06
SparkSQL通过SHC高效读写访问HBase SparkSQL通过SHC高效读写访问HBase
一、概述Apache Spark 和Apache HBase 是两个使用比较广泛的大数据组件。很多场景需要使用Spark分析/查询Hbase中的数据,而目前Spark内置是支持很多数据源的,其中就包括了HBase,但是内置的读取数据源还是使
2019-11-27
关于SparkSQL 2.4 ArrayIndexOutOfBoundsException error 的问题记录 关于SparkSQL 2.4 ArrayIndexOutOfBoundsException error 的问题记录
1. 背景测试spark ml 代码的时候报了一个数组下标越界的异常,报错日志如下: 19/11/15 11:02:21 ERROR Instrumentation: com.thoughtworks.paranamer.BytecodeR
2019-11-15
Spark-源码在idea-下添加注释报错的问题 Spark-源码在idea-下添加注释报错的问题
1. 问题Spark源码用IDEA导入后,添加注释时,发现不管是 单行注释符 // 还是 多行注释符 /**/,都会报错。 Scalastyle examines your Scala code and indicates potenti
2019-10-10
Spark  任务调度解析 Spark 任务调度解析
1. Spark任务调度流程图 2 DAGScheduler2.1 DAGScheduler 介绍 DAG:Directed Acyclic Graph ,有向无环图 高级调度器,面向阶段调度。(map阶段、reduce阶段)(st
2019-08-26
1 / 5