今天阳光很暖
构建数据仓库的分层设计 构建数据仓库的分层设计
1. 前言数据仓库代表的是一套全面的数据管理和使用策略,包含了诸如ETL、调度和建模等完整的理论体系。而现在的“大数据”更多的是指数据量的增加和工具的更新。这两者并没有冲突,实际上,它们可以更好地结合起来。单纯使用Hadoop、Spark、
2018-05-03
Spark Streaming 7. Structured Streaming 入门 Spark Streaming 7. Structured Streaming 入门
本文转自:Spark结构式流编程指南 1. 概览Structured Streaming 是一个可拓展,容错的,基于 Spark SQL 执行引擎的流处理引擎。使用小量的静态数据模拟流处理。伴随流数据的到来,SparkSQL 引擎会逐渐连续
2018-04-15
Spark Streaming 6. Exactly-Once解决方案 Spark Streaming 6. Exactly-Once解决方案
1 Exactly-Once事务处理1.1 什么是Exactly-Once事务?数据仅处理一次并且仅输出一次,这样才是完整的事务处理。 以银行转帐为例,A用户转账给B用户,B用户可能收到多笔钱,保证事务的一致性,也就是说事务输出,能够输出且
2018-04-10
实例详解机器学习如何解决问题 实例详解机器学习如何解决问题
转载美团文档,原文地址为:https://tech.meituan.com/mt-mlinaction-how-to-ml.html 1. 前言随着大数据时代的到来,机器学习成为解决问题的一种重要且关键的工具。不管是工业界还是学术界,机器学
2018-03-30
人工智能在线特征系统中的数据存取技术 人工智能在线特征系统中的数据存取技术
转载美团文档,原文地址为:https://tech.meituan.com/online-feature-system.html 1. 在线特征系统主流互联网产品中,不论是经典的计算广告、搜索、推荐,还是垂直领域的路径规划、司机派单、物料智
2018-03-25
HDFS文件未关闭导致锁定异常排除 HDFS文件未关闭导致锁定异常排除
1.检查失败任务java.io.IOException: Cannot obtain block length for LocatedBlock 问题 集群重启 文件还在打开状态 问题解决 1234567891011121314151617
2018-03-21
机器学习中的数据清洗与特征处理综述 机器学习中的数据清洗与特征处理综述
转载美团文档,原文地址为: https://tech.meituan.com/machinelearning-data-feature-process.html 1. 背景随着美团交易规模的逐步增大,积累下来的业务数据和交易数据越来越多,这
2018-03-21
Spark Streaming 5. 容错语义 Spark Streaming 5. 容错语义
1. 容错语义的背景要理解Spark Streaming所提供的容错语义,我们首先需要回忆一下Spark RDD所提供的基本容错语义。 RDD是不可变的,可重算的,分布式数据集。每个RDD都记录了其创建算子的依赖信息,其中每个算子都以可容
2018-03-15
Spark Streaming 4. 程序部署监控调优 Spark Streaming 4. 程序部署监控调优
1. 部署应用要运行一个Spark Streaming 应用,你首先需要具备以下条件: 集群以及集群管理器 – 这是一般Spark应用的基本要求,详见 deployment guide。 给Spark应用打个JAR包 –
2018-03-09
Spark Streaming 3. 数据广播与检查点 Spark Streaming 3. 数据广播与检查点
1. 缓存/持久化和RDD类似, DStream也支持将数据持久化到内存中, 只需要调用DStream的persist()方法, 该方法内部会调用DStream中每个RDD的persist()方法, 进而将数据持久化到内存中, 这对于可能需
2018-03-04
Spark Streaming 2. DStream 介绍 Spark Streaming 2. DStream 介绍
1. DStreams(离散数据流)离散数据流(DStream) 是spark Streaming最基本的抽象,它代表了一种连续的数据流,要么从某种数据源提取数据,要么从其他数据流映射转换而来。DStream内部是由一系列连续的RDD 组成
2018-02-26
Spark Streaming 1. 介绍 Spark Streaming 1. 介绍
1. 介绍Spark Streamingspark streaming 是 spark 核心 api 的扩展,支持可扩展,高吞吐量,实时数据流的容错处理,数据可以从 kafka,flume,Kinesis 或者 TCP socket 中获取
2018-02-24
17 / 24