今天阳光很暖
Hello World Hello World
Welcome to Hexo! This is your very first post. Check documentation for more info. If you get any problems when using Hex
2019-07-20
特征工程技术与方法 特征工程技术与方法
原文地址: https://blog.csdn.net/jasonding1354/article/details/47171115 1. 引言在之前学习机器学习技术中, 很少关注特征工程(Feature Engineering), 然而单
2019-04-02
倒排索引 倒排索引
1. 介绍倒排索引源于实际应用中需要根据属性的值来查找记录。 这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。 由于不是由记录来确定属性值, 而是由属性值来确定记录的位置, 因而称为倒排索引(inverted index)
2018-05-29
构建数据仓库的分层设计 构建数据仓库的分层设计
1. 前言数据仓库代表的是一套全面的数据管理和使用策略,包含了诸如ETL、调度和建模等完整的理论体系。而现在的“大数据”更多的是指数据量的增加和工具的更新。这两者并没有冲突,实际上,它们可以更好地结合起来。单纯使用Hadoop、Spark、
2018-05-03
实例详解机器学习如何解决问题 实例详解机器学习如何解决问题
转载美团文档,原文地址为:https://tech.meituan.com/mt-mlinaction-how-to-ml.html 1. 前言随着大数据时代的到来,机器学习成为解决问题的一种重要且关键的工具。不管是工业界还是学术界,机器学
2018-03-30
人工智能在线特征系统中的数据存取技术 人工智能在线特征系统中的数据存取技术
转载美团文档,原文地址为:https://tech.meituan.com/online-feature-system.html 1. 在线特征系统主流互联网产品中,不论是经典的计算广告、搜索、推荐,还是垂直领域的路径规划、司机派单、物料智
2018-03-25
机器学习中的数据清洗与特征处理综述 机器学习中的数据清洗与特征处理综述
转载美团文档,原文地址为: https://tech.meituan.com/machinelearning-data-feature-process.html 1. 背景随着美团交易规模的逐步增大,积累下来的业务数据和交易数据越来越多,这
2018-03-21
Flume ElasticSearch Sink 配置参数与Agent配置文件示例 Flume ElasticSearch Sink 配置参数与Agent配置文件示例
1. ElasticSearch Sink 介绍ElasticSearchSink 可以向elasticsearch 集群中写入数据。默认情况下写入event类型数据以便 Kibana 能够以图形化方式展示他们,就像 logstash 那样
2017-05-20
Datenode 无法启动clusterID = . . . Datenode 无法启动clusterID = . . .
1. 异常日志2016-12-22 12:08:27,264 INFO org.mortbay.log: Started HttpServer2$SelectChannelConnectorWithSafeStartup@0.0.0.0:5
2016-12-22
基于centos6.5部署 Cloudstack 基于centos6.5部署 Cloudstack
1. 前言CloudStack是一个功能强大、UI友好的开源云(IaaS)计算解决方案。自Ctrix将CloudStack捐献给Apache 后,一直持续高速发展,其社区活跃度已经渐渐赶上另一开源云OpenStack平台。CloudStac
2015-11-27
实时计算框架 Storm 介绍 实时计算框架 Storm 介绍
1. storm是什么? Storm是Twitter开源的一个分布式的实时计算系统 使用场景:数据的实时分析,持续计算,分布式RPC等等 2.storm 有哪些优点 分布式 可扩展 高可靠性 编程模型简单 高效实时 3. storm 常
2015-06-12
2 / 2