今天阳光很暖
Spark ML 5.特征转换 1 Spark ML 5.特征转换 1
1. 分词器1.1 算法介绍 类别:transformer【转换器】 Tokenizer Tokenization 将文本划分为单词。下面例子将展示如何把句子划分为单词。 RegexTokenizer基于正则表达式提供了更多的划分选项。默
2018-12-29
Spark ML 4.特征提取 Spark ML 4.特征提取
1. 特征处理介绍特征处理主要分三部分: 特征提取:从原始数据中提取特征 特征转换:特征的维度、特征的转化、特征的修改 特征选取:从大规模特征中选取一个子集 Spark 特征提取提供三种算法:分别是 TF-IDF、 Word2Ve
2018-12-27
Spark ML 3.模型评价指标,准确率、精确率、召回率 Spark ML 3.模型评价指标,准确率、精确率、召回率
在机器学习 准确率(accuracy),精确率(Precision),召回率(Recall)和 综合评价指标(F1-Measure ) 一、说明有一个模型,能够在100人中找出程序猿,找的结果如下(混淆矩阵): 实际 \ 预测 Tru
2018-12-10
Spark ML 2.管道与工作流 Spark ML 2.管道与工作流
1. 介绍一个典型的机器学习构建包含若干个步骤 源数据ETL 数据预处理 特征选取 模型训练与验证 以上四个步骤可以抽象为一个包括多个步骤的流水线式工作,从数据收集开始至输出我们需要的最终结果,因此,对以上多个步骤,进行抽象模型,简化流
2018-12-03
SparkSQL2.x  常用函数 SparkSQL2.x 常用函数
% expr1 % expr2 - 返回 expr1 除以 expr2 的余数。. 示例 > SELECT 2 % 1.8; 0.2 > SELECT MOD(2, 1.8); 0.2 & expr1 & expr
2018-09-15
SparkSQL读取HBase数据 SparkSQL读取HBase数据
介绍这里的 SparkSQL 是指整合了 Hive 的 spark-sql cli,本质上就是通过Hive访问HBase表,具体就是通过hive-hbase-handler。 环境说明hadoop-2.3.0-cdh5.0.0 apache
2018-09-11
Apache Spark 2.0中DataFrames 和 SQL 2 Apache Spark 2.0中DataFrames 和 SQL 2
本文第一部分使用了无类型的 DataFrame API,其中每行都表示一个Row对象。在下面的内容中,我们将使用更新的 DatasetAPI。Dataset 是在 Apache Spark 1.6 中引入的,并已在 Spark 2.0 中使
2018-09-07
Apache Spark 2.0中 DataFrames 和 SQL Apache Spark 2.0中 DataFrames 和 SQL
Spark 2.0开发的一个动机是让它可以触及更广泛的受众,特别是缺乏编程技能但可能非常熟悉SQL的数据分析师或业务分析师。因此,Spark 2.0现在比以往更易使用。在这部分,我将介绍如何使用Apache Spark 2.0。并将重点关注
2018-09-06
Spark SQL 6.资源动态划分 Spark SQL 6.资源动态划分
1. spark的动态资源划分 动态资源划分,是指在spark当中用于对计算的时候资源,如果不够或者资源剩余的情况下进行动态的资源划分,以求资源的利用率达到最大 Spark中的资源单位一般指的是executors,和Yarn中的Conta
2018-06-23
Spark SQL 5.调优 Spark SQL 5.调优
1. 数据缓存性能调优主要是将数据放入内存中操作,spark缓存注册表的方法 缓存spark表 spark.catalog.cacheTable("tableName") 释放缓存表 spark.catalog.uncacheTab
2018-06-15
Spark SQL 4.架构介绍 Spark SQL 4.架构介绍
1. SparkSQL架构介绍 SparkSQL 是spark技术栈当中又一非常实用的模块, SparkSQL 通过引入SQL的支持,大大降低了学习成本,让我们开发人员直接使用SQL的方式就能够实现大数据的开发, SparkSQL 同时支持
2018-06-05
Spark SQL 3.Hive On Spark Spark SQL 3.Hive On Spark
1. Spark on hive 与 Hive on Spark 的区别 Spark on hive Spark通过Spark-SQL使用hive 语句操作hive,底层运行的还是 spark rdd 就是通过sparksql,加载hi
2018-05-29
3 / 5