大数据服务!IBM推进Apache Spark项目 IBM承诺将Spark嵌入IBM业内领先的分析和商务平台,并将Spark作为一项服务在IBM Bluemix平台上提供给客户。... spark 大数据服务 IBM Bluemix 2015-07-06
四大神今晚微信圆桌:YARN or Mesos?Spark痛点探讨 今晚,与四位大神的约会。TalkingData阎志涛,亚信田毅,AdMaster卢亿雷,SparkCommitter、MesosHadoopContributor夏俊鸾一起讨论YARNonSpark痛点与优化,YARN在Hadoop上的... Spark实践分享 2015-07-02
旧金山Spark Summit 2015,见证中国的技术力量 在此次峰会里感受最深的就是中国的Spark发展太快了,Spark发起人Databricks的CTOMateiZaharia在Keynotes重点指出:Spark最大的集群来自腾讯——8000个节点,单个Job最... Spark Summit 2015-07-01
Dropbox邵铮:我怎么看Hadoop Summit 2015和Spark Summit 2015? Dropbox研发经理邵铮刚刚参加了HadoopSummit2015和SparkSummit2015。他从会议规模、趋势、关注的技术等方面对这两场技术届有名的会议进行了深入比较,并提出他所关... Spark Summit 2015-07-01
Tachyon:Spark生态系统中的分布式内存文件系统 Tachyon把内存存储的功能从Spark中分离出来,使Spark可以更专注计算的本身,以求通过更细的分工达到更高的执行效率。... 分布式文件系统 2015-06-25
Databricks连城:Spark SQL结构化数据分析 SparkSQL面世已一年有余,它不仅接过了Shark的接力棒,继续为Spark用户提供高性能SQLonHadoop解决方案,还为Spark带来了通用、高效、多元一体的结构化数据处理能力。这... Spark SQL 2015-06-18
Spark1.4:SparkR发布,钨丝计划锋芒初露 Spark1.4版本正式发布,在SparkCore、SparkStreaming、SparkSQL(DataFrame)、SparkMLMLlib等升级之外,新版本还加入了SparkR组件。下面一起看看SparkR和本次更新的介... Spark 学习 2015-06-12
华为叶琪:论Spark Streaming的数据可靠性和一致性 SparkStreaming自发布起就得到了广泛的关注,然而作为一个年轻的项目,需要提升的地方同样很多,比如1.2之前版本driver挂掉可能会丢失数据。这里将分析它的可靠性机制... Spark Streaming 2015-06-12
从Hadoop到Spark的架构实践 这篇文章则主要介绍TalkingData在大数据平台建设过程中,逐渐引入Spark,并且以HadoopYARN和Spark为基础来构建移动大数据平台的过程。... spark架构实践 大数据架构 2015-06-08
Python 编写的Spark解析器介绍 虽然 Spark 使用的少见的协定让人不太容易习惯,而且文档从某些角度来看可能比较含混不清,但 Spark 的力量还是非常令人惊奇。Spark 实现的编程风格使最终程序员能够... Python Spark解析器 2015-06-04
Spark与Hadoop计算模型的比较分析 Spark是一个通用的并行计算框架,由UCBerkeley的AMP实验室开发,Spark更适合于迭代运算比较多的ML和DM运算。因为在Spark里面,有RDD的概念。... spark hadoop计算模型 2015-06-04
黄洁:IntelSpark应用优化和实践经验 黄洁就Spark的内存管理、IO提升和计算优化3个方面进行了详细讲解。黄洁表示,对比MapReduce,Spark擅长于复杂的机器学和图的计算、流处理等多种业务场景。... Spark实践 2015-05-29
揭秘Sponge:统一Hadoop、Spark、SDS、Swift的大数据操作系统 Sponge是一个简单多层,兼容完全POSIX兼容的分布式NFS、Hadoop,支持对象存储、云存储、SDS、容器机制,集成Spark为计算引擎,基于内存计算技术的分布式系统,将大数据的存... hadoop spark 比较 2015-05-25
Databricks孟祥瑞:ALS在Spark MLlib中的实现 MLlib在1.3中添加了不少机器学习及数据挖掘算法:研究主题分布的LDA、估计点集分布的GMM、提取频繁项集的FP-growth等等。这篇文章主要聚焦ALS的实现及其在1.3中的... MLlib 2015-05-07
七牛技术总监陈超:记Spark Summit China 2015 相比去年峰会,今年的Spark峰会显得更加自信。去年,大部分参会者可能更多是抱着“我能不能用Spark”的心态,而今年参会者想的更多的是“我怎样才能更好地使用Spark”... Spark Summit 2015-04-30
Project Tungsten:让Spark将硬件性能压榨到极限 对于Spark来说,通用只是其目标之一,更好的性能同样是其赖以生存的立足之本。北京时间4月28日晚,Databricks在其官方博客上发布了Tungsten项目,并简述了Spark性能提升... Spark性能分析 2015-04-30
Spark成为大数据分析领域新核心的五个理由 尽管Spark还仅仅是个相对年轻的数据项目,但其能够满足前面提到的全部需求,甚至可以做得更多。在今天的文章中,我们将列举五大理由,证明为什么由Spark领衔的时代已经来... spark 数据分析 大数据分析 2015-04-27
Spark编程指南——Python版 对于1个年仅5岁的开源项目来说,其远谈不上尽善尽美,就比如文档相关。这篇文章翻译自SparkProgrammingGuide,选取了其中使用Python的部分。... Spark 教程 Python 2015-04-24