Spark 是继Hadoop之后新一代的大数据分布式处理平台。它是一个基于内存的、容错型的分布式计算引擎。与Hadoop MapReduce相比,Spark的计算速度要快100倍。即便同样采用硬盘计算,Spark也比MapReduce快10倍。Spark卓越的用户体验以及统一的技术堆栈基本上解决了大数据领域所有核心问题,使得Spark迅速成为当前最为热门的大数据基础平台。
Spark 提供了多语言支持,如Scala、Python、Java、R等,支持交互式操作。它在RDD(Resilient Distributed Datasets,一个容错的、并行的数据结构) 基础之上提供了Spark Streaming流式计算,结构化数据处理组件Spark SQL,机器学习库 MLlib 以及图计算GraphX等功能。
然而,对于一个快速发展中的开源项目来说,Spark的生产环境并不是一件容易的事情。有鉴于此,8月25日,青云QingCloud正式推出Spark即服务平台。具体而言,青云QingCloud提供的Spark服务有如下特征:
- 一键部署:QingCloud用户只需简单的配置,就能够在2-3分钟内搭建出一个Spark集群,并且通过丰富的工具和服务,实现高效简便的Spark运维管理。QingCloud提供多样化、组件化的服务模式,用户可以根据自己的业务需求,组建个性化的解决方案。
- 在线伸缩:Spark服务支持横向和纵向在线伸缩,以满足用户对计算能力和容量的需求,横向伸缩对用户业务的连续性不会产生任何影响。后续还会配合AutoScaling,达到Spark集群自动伸缩的效果。
- 迁移成本低:QingCloud Spark服务采用原生开源解决方案,并且采用最新的版本(目前为1.4.1版本,未来还会持续更新,并保留三个最新版本),具有良好的向下兼容特性,便于用户将自有Spark集群迁移至云端,也不限制用户从Spark服务迁移至自有集群。使用QingCloud的Spark服务,用户完全不必担心产生Vendor lock-in的束缚。
- 监控告警:QingCloud提供了对每个节点资源的监控告警服务,包括CPU使用率、内存使用率、硬盘使用率、硬盘IOPS、硬盘吞吐量等,以帮助用户更好的管理和维护Spark集群。
- 安全性:Spark集群运行于私有网络内,结合QingCloud提供的高性能存储和超高性能存储,在保障高性能的同时兼顾用户的数据安全。
青云QingCloud CEO 黄允松(Richard Huang)表示,Spark服务的发布标志着QingCloud完整的大数据基础平台已初步建立,接下来QingCloud还会陆续发布一系列大数据相关服务,如Hadoop、Cassandra、Hive、HBase和Storm等。未来,大数据、数据库、缓存和对象存储将同IaaS组件一起构成QingCloud完整的数据产品生态圈,提供一站式的计算、存储和数据处理服务,更好地帮助用户实现数据的价值。
声明: 此文观点不代表本站立场;转载须要保留原文链接;版权疑问请联系我们。