今天阳光很暖
05
03
构建数据仓库的分层设计 构建数据仓库的分层设计
1. 前言数据仓库代表的是一套全面的数据管理和使用策略,包含了诸如ETL、调度和建模等完整的理论体系。而现在的“大数据”更多的是指数据量的增加和工具的更新。这两者并没有冲突,实际上,它们可以更好地结合起来。单纯使用Hadoop、Spark、
2018-05-03
04
15
10
Spark Streaming 6. Exactly-Once解决方案 Spark Streaming 6. Exactly-Once解决方案
1 Exactly-Once事务处理1.1 什么是Exactly-Once事务?数据仅处理一次并且仅输出一次,这样才是完整的事务处理。 以银行转帐为例,A用户转账给B用户,B用户可能收到多笔钱,保证事务的一致性,也就是说事务输出,能够输出且
2018-04-10
03
30
实例详解机器学习如何解决问题 实例详解机器学习如何解决问题
转载美团文档,原文地址为:https://tech.meituan.com/mt-mlinaction-how-to-ml.html 1. 前言随着大数据时代的到来,机器学习成为解决问题的一种重要且关键的工具。不管是工业界还是学术界,机器学
2018-03-30
25
21
21
15
Spark Streaming 5. 容错语义 Spark Streaming 5. 容错语义
1. 容错语义的背景要理解Spark Streaming所提供的容错语义,我们首先需要回忆一下Spark RDD所提供的基本容错语义。 RDD是不可变的,可重算的,分布式数据集。每个RDD都记录了其创建算子的依赖信息,其中每个算子都以可容
2018-03-15
09
04
02
26
Spark Streaming 2. DStream 介绍 Spark Streaming 2. DStream 介绍
1. DStreams(离散数据流)离散数据流(DStream) 是spark Streaming最基本的抽象,它代表了一种连续的数据流,要么从某种数据源提取数据,要么从其他数据流映射转换而来。DStream内部是由一系列连续的RDD 组成
2018-02-26
24
Spark Streaming 1. 介绍 Spark Streaming 1. 介绍
1. 介绍Spark Streamingspark streaming 是 spark 核心 api 的扩展,支持可扩展,高吞吐量,实时数据流的容错处理,数据可以从 kafka,flume,Kinesis 或者 TCP socket 中获取
2018-02-24
17 / 24