今天阳光很暖
Spark 中的基本概念 Spark 中的基本概念
1. Application应用 Spark上运行的应用, 包含了驱动器进程(Driver)和集群上的执行器进程(Executor) 每个Application 只有一个Driver 但是可以有多个Executor 2. Appli
2019-08-19
介绍 HBase 过滤器类别与使用方式 介绍 HBase 过滤器类别与使用方式
1. 数据以及代码准备1.1 hbase过滤器介绍以下介绍过滤器是基于HBase2.0.2版本。 HBase的Get和Scan实例可以调用setFilter()来设置过滤器,HBase的过滤器种类繁多,以满足不同的过滤需求。Filter作用
2019-08-06
HBase shell 介绍 HBase shell 介绍
1.DDL(data definition language)DDL的命令有CREATE、ALTER、DROP等,DDL主要是用在定义或改变表(TABLE)的结构,数据类型,表之间的链接和约束等初始化工作上,他们大多在建立表时使用 1.1一
2019-07-29
HBase 数据迁移的几种方式 HBase 数据迁移的几种方式
1. CopyTableBase 的 CopyTable 是一个用于复制一个表到另一个表的实用工具。它可以在同一个 HBase 集群内复制表,也可以在不同的 HBase 集群间复制表。CopyTable 可以根据时间戳范围、版本数量和过滤条
2019-07-26
hive 常用函数整理 3.逻辑运算 hive 常用函数整理 3.逻辑运算
1. 逻辑与操作: AND语法: A AND B 操作类型:boolean 说明:如果A和B均为TRUE,则为TRUE;否则为FALSE。如果A为NULL或B为NULL,则为NULL 举例: 12345hive> select 1 f
2019-07-24
使用hexo 搭建Github pages 个人博客 使用hexo 搭建Github pages 个人博客
下面介绍本博客使用hexo搭建github pages的过程。
2019-07-21
Hello World Hello World
Welcome to Hexo! This is your very first post. Check documentation for more info. If you get any problems when using Hex
2019-07-20
特征工程技术与方法 特征工程技术与方法
原文地址: https://blog.csdn.net/jasonding1354/article/details/47171115 1. 引言在之前学习机器学习技术中, 很少关注特征工程(Feature Engineering), 然而单
2019-04-02
Spark ML 16.模型选择和调试 Spark ML 16.模型选择和调试
1. 交叉验证1.1 方法介绍CrossValidator将数据集划分为若干子集分别地训练和测试。 如当k=3时, CrossValidator产生3个训练数据与测试数据对, 每个数据对使用2/3 的数据来训练, 1/3的数据来测试。 对于
2019-03-18
Spark ML 15.协同过滤 Spark ML 15.协同过滤
1.协同过滤算法介绍: 协同过滤常备用于推荐系统。 这类技术目标在于填充“用户 - 商品”联系矩阵中的缺失项。 Spark.ml目前支持基于模型的协同过滤, 其中用户和商品以少量的潜在因子来描述, 用以预测缺失项。 Spark.ml使用交替
2019-03-06
Spark ML 14.聚类算法 Spark ML 14.聚类算法
1. K均值1.1 算法介绍:K 均值(K-means) 是一个常用的聚类算法来讲数据按预定的簇数进行剧集。k-means 算法的基本思想史: 以空间K个点为中心进行聚类, 对靠近他们的对象归类。 通过迭代的方法, 主次更新各聚类中心的值,
2019-02-25
Spark ML 13.回归算法 2 Spark ML 13.回归算法 2
1. 梯度提升树回归1.1 算法简介梯度提升树是一种决策树的继承算法。它通过反复迭代训练决策树来最小化损失函数。 决策树类似,梯度提升树具有可处理类别特征,易扩展到多分类问题, 不需要特征缩放等性质。 spark.ml 通过使用现有 dec
2019-02-08
14 / 24