归档: 2018 | hnbian

2018

05

29

Spark SQL 3.Hive On Spark

1. Spark on hive 与 Hive on Spark 的区别 Spark on hive Spark通过Spark-SQL使用hive 语句操作hive，底层运行的还是 spark rdd 就是通过sparksql，加载hi

2018-05-29 spark

29

倒排索引

1. 介绍倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值，而是由属性值来确定记录的位置，因而称为倒排索引（inverted index）

2018-05-29 others

others

25

Spark SQL 2.自定义函数

1. SparkSQL 中自定义函数类型在 Spark SQL 中，用户自定义函数（User-Defined Function，简称 UDF）是一种特殊的函数，允许用户定义自己的逻辑来处理数据。这些函数可以直接在 Spark SQL 查询中

2018-05-25 spark

spark spark sql

21

Spark SQL 1. 常见概念与基本操作

1. SparkSQL 概述1.1 Shark Shark 是 Databricks 开发出专门针对于spark的构建大规模数据仓库系统的一个框架 Shark 与 Hive 兼容，同时也依赖于Spark版本 Shark是把sql语句解析

2018-05-21 spark

spark spark sql

20

Spark SQL 自适应执行实践

本文作者是：王愈舟、俞育才、郭晨钊、程浩（英特尔）、李元健（百度） 1. Spark SQL 介绍Spark SQL 是 Apache Spark 最广泛使用的一个组件，它提供了非常友好的接口来分布式处理结构化数据，在很多应用领域都有成功

2018-05-20 spark

spark spark sql

03

构建数据仓库的分层设计

1. 前言数据仓库代表的是一套全面的数据管理和使用策略，包含了诸如ETL、调度和建模等完整的理论体系。而现在的“大数据”更多的是指数据量的增加和工具的更新。这两者并没有冲突，实际上，它们可以更好地结合起来。单纯使用Hadoop、Spark、

2018-05-03 others

04

15

Spark Streaming 7. Structured Streaming 入门

本文转自：Spark结构式流编程指南 1. 概览Structured Streaming 是一个可拓展，容错的，基于 Spark SQL 执行引擎的流处理引擎。使用小量的静态数据模拟流处理。伴随流数据的到来，SparkSQL 引擎会逐渐连续

2018-04-15 spark

spark spark streaming

10

Spark Streaming 6. Exactly-Once解决方案

1 Exactly-Once事务处理1.1 什么是Exactly-Once事务？数据仅处理一次并且仅输出一次，这样才是完整的事务处理。以银行转帐为例，A用户转账给B用户，B用户可能收到多笔钱，保证事务的一致性，也就是说事务输出，能够输出且

2018-04-10 spark

spark spark streaming

03

30

实例详解机器学习如何解决问题

转载美团文档，原文地址为：https://tech.meituan.com/mt-mlinaction-how-to-ml.html 1. 前言随着大数据时代的到来，机器学习成为解决问题的一种重要且关键的工具。不管是工业界还是学术界，机器学

2018-03-30 others

others

25

人工智能在线特征系统中的数据存取技术

转载美团文档，原文地址为：https://tech.meituan.com/online-feature-system.html 1. 在线特征系统主流互联网产品中，不论是经典的计算广告、搜索、推荐，还是垂直领域的路径规划、司机派单、物料智

2018-03-25 others

others

21

HDFS文件未关闭导致锁定异常排除

1.检查失败任务java.io.IOException: Cannot obtain block length for LocatedBlock 问题集群重启文件还在打开状态问题解决 1234567891011121314151617

2018-03-21 hdfs

exception hdfs

21

机器学习中的数据清洗与特征处理综述

转载美团文档，原文地址为： https://tech.meituan.com/machinelearning-data-feature-process.html 1. 背景随着美团交易规模的逐步增大，积累下来的业务数据和交易数据越来越多，这

2018-03-21 others

others