今天阳光很暖
Spark ML 12.回归算法 1 Spark ML 12.回归算法 1
1. 广义线性模型1. 算法介绍与线性回归假设输出服从高斯分布不同, 广义线性模型(GLMs)指定先行模型的因变量 Y¡ 服从指数型分布。Spark的GeneralizedLinearRegression接口允许指定GLMs包括线性回归、泊
2019-01-25
Spark ML 11.分类算法 3 Spark ML 11.分类算法 3
1. 多层感知机1.1 算法介绍多层感知器 (MLP, Multilayer Perceptron) 是一种多层的前馈神经网络模型,所谓前馈型神经网络,指其从输入层开始只接收前一层的输入,并把计算结果输出到后一层,并不会给前一层有所反馈,整
2019-01-20
Spark ML 10.分类算法 2 Spark ML 10.分类算法 2
1. 决策树1.1 算法简介决策树以及其继承算法是机器学习分类和回归问题中非常流行的算法,因其易解释性、可处理类别特征、易扩展到多分类问题、不需特征缩放等性质被广泛使用。决策树模式呈树形结构,其中: 每个内部节点 代表一个属性上的测试 每
2019-01-15
Spark ML 9.分类算法 1 Spark ML 9.分类算法 1
1. 逻辑回归逻辑回归(Logistic Regression)是预测分类的流程方法,它是 广义线性模型 的一个特例来预测结果分类的可能性。在spar.ml 逻辑回归中可以使用二项式逻辑回归来预测二进制结果,也可以通过多项式逻辑回归来预测多
2019-01-08
Spark ML 8. 特征选择 Spark ML 8. 特征选择
1. 介绍 特征选择(Feature Selection)指的是在特征向量中选择出那些“优秀”的特征,组成新的、更“精简”的特征向量的过程。 特征选择在高维数据分析中十分常用,可以剔除掉“冗余”和“无关”的特征,提升学习器的性能。特征选择
2019-01-05
Spark ML 7.特征转换 3 Spark ML 7.特征转换 3
1. 正则化1.1 算法说明类别:transformer【转换器】 正则化(Normalizer)是一个转换器, 它可以将多行向量输入转化为统一的形式。 参数为p (默认值:2) 来指定正则化中使用的p-norm。 正则化操作可以使输入数据
2019-01-03
Spark ML 6.特征转换 2 Spark ML 6.特征转换 2
1. 离散余弦变换1.1 算法介绍类别:transformer【转换器】 离散余弦变(DCT, Discrete Cosine Transform )换是与傅里叶变换相关的一种变换, 它类似于离散傅里叶变换, 但是只使用实数。 离散余
2019-01-01
Spark ML 5.特征转换 1 Spark ML 5.特征转换 1
1. 分词器1.1 算法介绍 类别:transformer【转换器】 Tokenizer Tokenization 将文本划分为单词。下面例子将展示如何把句子划分为单词。 RegexTokenizer基于正则表达式提供了更多的划分选项。默
2018-12-29
Spark ML 4.特征提取 Spark ML 4.特征提取
1. 特征处理介绍特征处理主要分三部分: 特征提取:从原始数据中提取特征 特征转换:特征的维度、特征的转化、特征的修改 特征选取:从大规模特征中选取一个子集 Spark 特征提取提供三种算法:分别是 TF-IDF、 Word2Ve
2018-12-27
Spark ML 3.模型评价指标,准确率、精确率、召回率 Spark ML 3.模型评价指标,准确率、精确率、召回率
在机器学习 准确率(accuracy),精确率(Precision),召回率(Recall)和 综合评价指标(F1-Measure ) 一、说明有一个模型,能够在100人中找出程序猿,找的结果如下(混淆矩阵): 实际 \ 预测 Tru
2018-12-10
Spark ML 2.管道与工作流 Spark ML 2.管道与工作流
1. 介绍一个典型的机器学习构建包含若干个步骤 源数据ETL 数据预处理 特征选取 模型训练与验证 以上四个步骤可以抽象为一个包括多个步骤的流水线式工作,从数据收集开始至输出我们需要的最终结果,因此,对以上多个步骤,进行抽象模型,简化流
2018-12-03
SparkSQL2.x  常用函数 SparkSQL2.x 常用函数
% expr1 % expr2 - 返回 expr1 除以 expr2 的余数。. 示例 1234> SELECT 2 % 1.8;0.2> SELECT MOD(2, 1.8);0.2 & expr1 &
2018-09-15
15 / 24