今天阳光很暖
05
29
29
倒排索引 倒排索引
1. 介绍倒排索引源于实际应用中需要根据属性的值来查找记录。 这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。 由于不是由记录来确定属性值, 而是由属性值来确定记录的位置, 因而称为倒排索引(inverted index)
2018-05-29
25
Spark SQL 2.自定义函数 Spark SQL 2.自定义函数
1. SparkSQL 中自定义函数类型在 Spark SQL 中,用户自定义函数(User-Defined Function,简称 UDF)是一种特殊的函数,允许用户定义自己的逻辑来处理数据。这些函数可以直接在 Spark SQL 查询中
2018-05-25
21
20
Spark SQL 自适应执行实践 Spark SQL 自适应执行实践
本文作者是 :王愈舟、俞育才、郭晨钊、程浩(英特尔)、李元健(百度) 1. Spark SQL 介绍Spark SQL 是 Apache Spark 最广泛使用的一个组件,它提供了非常友好的接口来分布式处理结构化数据,在很多应用领域都有成功
2018-05-20
03
构建数据仓库的分层设计 构建数据仓库的分层设计
1. 前言数据仓库代表的是一套全面的数据管理和使用策略,包含了诸如ETL、调度和建模等完整的理论体系。而现在的“大数据”更多的是指数据量的增加和工具的更新。这两者并没有冲突,实际上,它们可以更好地结合起来。单纯使用Hadoop、Spark、
2018-05-03
04
15
10
Spark Streaming 6. Exactly-Once解决方案 Spark Streaming 6. Exactly-Once解决方案
1 Exactly-Once事务处理1.1 什么是Exactly-Once事务?数据仅处理一次并且仅输出一次,这样才是完整的事务处理。 以银行转帐为例,A用户转账给B用户,B用户可能收到多笔钱,保证事务的一致性,也就是说事务输出,能够输出且
2018-04-10
03
30
实例详解机器学习如何解决问题 实例详解机器学习如何解决问题
转载美团文档,原文地址为:https://tech.meituan.com/mt-mlinaction-how-to-ml.html 1. 前言随着大数据时代的到来,机器学习成为解决问题的一种重要且关键的工具。不管是工业界还是学术界,机器学
2018-03-30
25
21
21
2 / 5