今天阳光很暖
Spark 中的基本概念 Spark 中的基本概念
1. Application应用 Spark上运行的应用, 包含了驱动器进程(Driver)和集群上的执行器进程(Executor) 每个Application 只有一个Driver 但是可以有多个Executor 2. Appli
2019-08-19
Spark ML 16.模型选择和调试 Spark ML 16.模型选择和调试
1. 交叉验证1.1 方法介绍CrossValidator将数据集划分为若干子集分别地训练和测试。 如当k=3时, CrossValidator产生3个训练数据与测试数据对, 每个数据对使用2/3 的数据来训练, 1/3的数据来测试。 对于
2019-03-18
Spark ML 15.协同过滤 Spark ML 15.协同过滤
1.协同过滤算法介绍: 协同过滤常备用于推荐系统。 这类技术目标在于填充“用户 - 商品”联系矩阵中的缺失项。 Spark.ml目前支持基于模型的协同过滤, 其中用户和商品以少量的潜在因子来描述, 用以预测缺失项。 Spark.ml使用交替
2019-03-06
Spark ML 14.聚类算法 Spark ML 14.聚类算法
1. K均值1.1 算法介绍:K 均值(K-means) 是一个常用的聚类算法来讲数据按预定的簇数进行剧集。k-means 算法的基本思想史: 以空间K个点为中心进行聚类, 对靠近他们的对象归类。 通过迭代的方法, 主次更新各聚类中心的值,
2019-02-25
Spark ML 13.回归算法 2 Spark ML 13.回归算法 2
1. 梯度提升树回归1.1 算法简介梯度提升树是一种决策树的继承算法。它通过反复迭代训练决策树来最小化损失函数。 决策树类似,梯度提升树具有可处理类别特征,易扩展到多分类问题, 不需要特征缩放等性质。 spark.ml 通过使用现有 dec
2019-02-08
Spark ML 12.回归算法 1 Spark ML 12.回归算法 1
1. 广义线性模型1. 算法介绍与线性回归假设输出服从高斯分布不同, 广义线性模型(GLMs)指定先行模型的因变量 Y¡ 服从指数型分布。Spark的GeneralizedLinearRegression接口允许指定GLMs包括线性回归、泊
2019-01-25
Spark ML 11.分类算法 3 Spark ML 11.分类算法 3
1. 多层感知机1.1 算法介绍多层感知器 (MLP, Multilayer Perceptron) 是一种多层的前馈神经网络模型,所谓前馈型神经网络,指其从输入层开始只接收前一层的输入,并把计算结果输出到后一层,并不会给前一层有所反馈,整
2019-01-20
Spark ML 10.分类算法 2 Spark ML 10.分类算法 2
1. 决策树1.1 算法简介决策树以及其继承算法是机器学习分类和回归问题中非常流行的算法,因其易解释性、可处理类别特征、易扩展到多分类问题、不需特征缩放等性质被广泛使用。决策树模式呈树形结构,其中: 每个内部节点 代表一个属性上的测试 每
2019-01-15
Spark ML 9.分类算法 1 Spark ML 9.分类算法 1
1. 逻辑回归逻辑回归(Logistic Regression)是预测分类的流程方法,它是 广义线性模型 的一个特例来预测结果分类的可能性。在spar.ml 逻辑回归中可以使用二项式逻辑回归来预测二进制结果,也可以通过多项式逻辑回归来预测多
2019-01-08
Spark ML 8. 特征选择 Spark ML 8. 特征选择
1. 介绍 特征选择(Feature Selection)指的是在特征向量中选择出那些“优秀”的特征,组成新的、更“精简”的特征向量的过程。 特征选择在高维数据分析中十分常用,可以剔除掉“冗余”和“无关”的特征,提升学习器的性能。特征选择
2019-01-05
Spark ML 7.特征转换 3 Spark ML 7.特征转换 3
1. 正则化1.1 算法说明类别:transformer【转换器】 正则化(Normalizer)是一个转换器, 它可以将多行向量输入转化为统一的形式。 参数为p (默认值:2) 来指定正则化中使用的p-norm。 正则化操作可以使输入数据
2019-01-03
Spark ML 6.特征转换 2 Spark ML 6.特征转换 2
1. 离散余弦变换1.1 算法介绍类别:transformer【转换器】 离散余弦变(DCT, Discrete Cosine Transform )换是与傅里叶变换相关的一种变换, 它类似于离散傅里叶变换, 但是只使用实数。 离散余
2019-01-01
2 / 5