今天阳光很暖
12
29
Spark ML 5.特征转换 1 Spark ML 5.特征转换 1
1. 分词器1.1 算法介绍 类别:transformer【转换器】 Tokenizer Tokenization 将文本划分为单词。下面例子将展示如何把句子划分为单词。 RegexTokenizer基于正则表达式提供了更多的划分选项。默
2018-12-29
27
Spark ML 4.特征提取 Spark ML 4.特征提取
1. 特征处理介绍特征处理主要分三部分: 特征提取:从原始数据中提取特征 特征转换:特征的维度、特征的转化、特征的修改 特征选取:从大规模特征中选取一个子集 Spark 特征提取提供三种算法:分别是 TF-IDF、 Word2Ve
2018-12-27
10
03
Spark ML 2.管道与工作流 Spark ML 2.管道与工作流
1. 介绍一个典型的机器学习构建包含若干个步骤 源数据ETL 数据预处理 特征选取 模型训练与验证 以上四个步骤可以抽象为一个包括多个步骤的流水线式工作,从数据收集开始至输出我们需要的最终结果,因此,对以上多个步骤,进行抽象模型,简化流
2018-12-03
09
15
11
SparkSQL读取HBase数据 SparkSQL读取HBase数据
介绍这里的 SparkSQL 是指整合了 Hive 的 spark-sql cli,本质上就是通过Hive访问HBase表,具体就是通过hive-hbase-handler。 环境说明hadoop-2.3.0-cdh5.0.0 apache
2018-09-11
07
06
Apache Spark 2.0中 DataFrames 和 SQL Apache Spark 2.0中 DataFrames 和 SQL
Spark 2.0开发的一个动机是让它可以触及更广泛的受众,特别是缺乏编程技能但可能非常熟悉SQL的数据分析师或业务分析师。因此,Spark 2.0现在比以往更易使用。在这部分,我将介绍如何使用Apache Spark 2.0。并将重点关注
2018-09-06
01
06
23
Spark SQL 6.资源动态划分 Spark SQL 6.资源动态划分
1. spark的动态资源划分 动态资源划分,是指在spark当中用于对计算的时候资源,如果不够或者资源剩余的情况下进行动态的资源划分,以求资源的利用率达到最大 Spark中的资源单位一般指的是executors,和Yarn中的Conta
2018-06-23
15
Spark SQL 5.调优 Spark SQL 5.调优
1. 数据缓存性能调优主要是将数据放入内存中操作,spark缓存注册表的方法 缓存spark表 1spark.catalog.cacheTable("tableName") 释放缓存表 1spark.catalog.uncache
2018-06-15
05
Spark SQL 4.架构介绍 Spark SQL 4.架构介绍
1. SparkSQL架构介绍 SparkSQL 是spark技术栈当中又一非常实用的模块, SparkSQL 通过引入SQL的支持,大大降低了学习成本,让我们开发人员直接使用SQL的方式就能够实现大数据的开发, SparkSQL 同时支持
2018-06-05
1 / 5