今天阳光很暖
Spark RDD 的介绍 Spark RDD 的介绍
1. 什么是RDD传统的MapReduce 虽然有自动容错,平衡负载和可扩展的优点,但是其最大的缺点是在迭代计算的时候,要进行大量的磁盘IO操作,而RDD正是解决这一缺点的抽象方法。RDD (Resilient Distributed Da
2018-02-02
Spark累加器与广播变量介绍 Spark累加器与广播变量介绍
1. 共享变量通常,当传递给Spark操作(如map或reduce)的函数在远程集群节点上执行时,它可以在函数中使用的所有变量的单独副本上工作。这些变量被复制到每个机器,并且远程机器上的变量的更新不会传播回驱动程序。在任务之间支持一般的,读
2017-04-07
Spark Spark性能优化的10大问题及其解决方案 Spark Spark性能优化的10大问题及其解决方案
1. reduce task数目不合适Application isn’t using all of the Cores: How to set the Cores used by a Spark App 解决方式: 需根据实际情况调节默认配
2016-08-23
5 / 5