Spark

Intel李锐:Hive on Spark解析

Intel李锐:Hive on Spark解析Hive是基于Hadoop平台的数据仓库,已经成为Hadoop事实上的SQL引擎标准。相较于Impala、Shark等,Hive拥有更为广泛的用户基础以及对SQL语法更全面的支持。这里,将走进H...

Spark实践分享

关于spark的三个常见疑问解惑

关于spark的三个常见疑问解惑,如果以前没有部署过其它的大数据集群,集群中的计算框架只有Spark,建议直接使用Standalone,如果集群中在运行Spark计算平台的同时还运行...

spark

王联辉:Spark在腾讯TDW的实战

王联辉:Spark在腾讯TDW的实战王联辉表示,早在2013年腾讯就开始使用Spark实现了广告模型的实时训练和更新,在2014年更将原有涉及迭代计算、图计算、DAG-MapReduce和HiveSQL等多种计算任务利用Spa...

Spark实践分享

MLlib中的Random Forests和Boosting

MLlib中的Random Forests和Boosting这篇文章介绍了RandomForests和Gradient-BoostedTrees(GBTs)算法和他们在MLlib中的分布式实现,以及展示一些简单的例子并建议该从何处上手。...

MLlib