Spark

快刀初试:SparkGraphX在淘宝的实践

快刀初试:SparkGraphX在淘宝的实践由于SparkGraphX性能良好,又有丰富的功能和运算符,能在海量数据上自如运行复杂的图算法,淘宝尝试将它作为分布式图计算平台,进行各种算法尝试和生产应用。这篇文章结...

Spark实践

浅谈Apache Spark的6个发光点

50个机构250个工程师贡献过代码,和去年六月相比,代码行数几乎扩大三倍,这是个令人艳羡的增长。那么,究竟是什么支撑了Spark如此的增长,对比Hadoop又有什么优势,这里一起...

Spark 学习

Cloudera将Spark划入Hadoop

Cloudera将Spark划入HadoopSpark内存计算框架适合各种迭代算法和交互式数据分析,能够提升大数据处理的实时性和准确性。“Spark记录着数据产生的每一个操作,能够可靠地将这些数据存储在内存之...

Hadoop vs Spark性能对比

Hadoop vs Spark性能对比使用Kmeans数据的对比hadoop和spark。读取HDFS上的block到内存,每个block转化为RDD,里面包含vector。然后对RDD进行map操作,抽取每个vector(point)对应的类号,输出(K,V)为...

Spark 大数据领域的小清新

Spark 大数据领域的小清新Spark的简约是针对Hadoop的Java API。在Hadoop中即使最简单你的案例也有不少代码。但是从概念上说,Hadoop是很简单的,因为它仅提供了两个基本的操作,并行的mao和一个...

Hadoop实战 spark