Spark

Intel李锐：Hive on Spark解析

Intel李锐：Hive on Spark解析 Hive是基于Hadoop平台的数据仓库，已经成为Hadoop事实上的SQL引擎标准。相较于Impala、Shark等，Hive拥有更为广泛的用户基础以及对SQL语法更全面的支持。这里，将走进H...

Spark实践分享 2015-04-24

百度马小龙：Spark在百度的工程实践分享

百度马小龙：Spark在百度的工程实践分享在实际生产环境，百度运行着1300台规模的单集群（包含数万核心和上百TB内存），公司内部同时还运行着大量的小型Spark集群。2015Spark技术峰会上，马小龙将分享Spark在百度...

spark实践分享 2015-04-10

关于spark的三个常见疑问解惑

关于spark的三个常见疑问解惑，如果以前没有部署过其它的大数据集群，集群中的计算框架只有Spark，建议直接使用Standalone，如果集群中在运行Spark计算平台的同时还运行...

spark 2015-04-01

阿里明风：图流合壁，基于Spark Streaming和GraphX的动态图计算

借助GraphX强大的图计算能力，在小时级别内完成对TB数量级的图数据挖掘已经不是什么难事。但是随着互联网电子商务的快速发展，各种各样的图场景应运而生，从而对图的计...

Spark Streaming 2015-03-30

王联辉：Spark在腾讯TDW的实战

王联辉：Spark在腾讯TDW的实战王联辉表示，早在2013年腾讯就开始使用Spark实现了广告模型的实时训练和更新，在2014年更将原有涉及迭代计算、图计算、DAG-MapReduce和HiveSQL等多种计算任务利用Spa...

Spark实践分享 2015-03-24

程序员2015年3月A：Spark新特性，新实战

程序员2015年3月A：Spark新特性，新实战过去一年，Spark从开源到火爆，展现了其成为通用大数据平台的潜质。本期封面报道“Spark新特性，新实战”内容涵盖SparkSQL、SparkMLlib、Tachyon、HiveonSpark多项技术...

Spark 学习 2015-03-19

懂行的人都在！参加Open Cloud 2015的十大理由

懂行的人都在！参加Open Cloud 2015的十大理由在2015年4月16-18日，一场由CSDN打造的技术盛宴OpenCloud2015将正式对外开放，汇聚近40名国内外大牛讲师，为业界梳理云计算与大数据的技术创新与应用实践。大会前夕，CSD...

Open Cloud 2015 2015-03-17

Databricks、Intel、BAT齐聚，2015 Spark峰会火花四射

Databricks、Intel、BAT齐聚，2015 Spark峰会火花四射 Databricks、微软、Intel、百度、阿里、腾讯、小米、亚信都来了，你在哪里？2015Spark峰会最后一场议题已被保留，你想听谁讲、讲什么、亦或是自己讲？...

spark技术峰会 2015-03-12

MLlib中的Random Forests和Boosting

MLlib中的Random Forests和Boosting 这篇文章介绍了RandomForests和Gradient-BoostedTrees（GBTs）算法和他们在MLlib中的分布式实现，以及展示一些简单的例子并建议该从何处上手。...

MLlib 2015-03-11

陈超：Spark这一年，从开源到火爆

陈超：Spark这一年，从开源到火爆自2014年3月份跻身Apache顶级项目（TLP），Spark已然成为ASF最活跃的项目之一，得到了业内广泛的支持——2014年12月发布的Spark1.2版本包含了来自172位Contributor贡献的...

开源spark项目 2015-03-10

流式大数据处理的三种框架：Storm，Spark和Samza

流式大数据处理的三种框架：Storm，Spark和Samza 本文将对对Storm、Spark和Samza等三种Apache框架分别进行简单介绍，然后尝试快速、高度概述其异同。这三种框架在处理连续性的大量实时数据时的表现均出色而高效，那...

spark storm 比较 2015-03-09

4月17-18日，OpenStack、Spark、Container齐聚Open Cloud 2015

4月17-18日，OpenStack、Spark、Container齐聚Open Cloud 2015 OpenCloud2015将覆盖OpenStack、Spark、Container三大时下最热门的云计算大数据核心技术，荟萃国内外真正的云计算专家。懂技术的人都在这里！...

Open Cloud 2015 2015-03-06

Spark Streaming容错的改进和零数据丢失

Spark Streaming容错的改进和零数据丢失实时流处理系统必须要能在247时间内工作，因此它需要具备从各种系统故障中恢复过来的能力。最开始，SparkStreaming就支持从driver和worker故障恢复的能力。这篇文章...

Spark Streaming 2015-03-04

Spark SQL数据源API：Spark平台的统一数据接入

Spark SQL数据源API：Spark平台的统一数据接入自从Spark1.0版本的SparkSQL问世以来，它最常见的用途之一就是作为从Spark平台上面获取数据的一个渠道。到了Spark1.2版本，我们已经迈出了下一步，让Spark的原生资源和...

Spark SQL 2015-02-13

Spark1.2.1发布，开源集群计算系统

Spark1.2.1发布，此版本是个维护版本，包括69位贡献者，修复了一些Spark的bug，包括核心API，Streaming，PySpark，SQL，GraphX和MLlib方面的。...

开源spark项目 2015-02-12

什么是Spark？Spark基本概念及使用方法介绍

什么是Spark？Spark基本概念及使用方法介绍什么是Spark？Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点，Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。...

spark 大数据 2015-02-11

Spark生态系统解析及基于Redis的开源分布式服务Codis

Spark生态系统解析及基于Redis的开源分布式服务Codis 在第九期“七牛开发者最佳实践日”上，陈超就Spark整个生态圈进行了讲解，而刘奇则分享豌豆荚在Redis上的摸索和实践。...

开源spark项目 2015-02-02

社区之力：40余人协作完成4万字Spark论文翻译

社区之力：40余人协作完成4万字Spark论文翻译由CSDNCODE翻译社区组织的长篇论文翻译AnArchitectureforFastandGeneralDataProcessingonLargeClusters经过40余名译者的努力终于全部翻译完成。...

Spark 2015-01-26