IBM陈冠诚：如何使用OpenStack、Docker和Spark打造一个云服务

2015-03-31 16:29:00

来源
CSDN

Openstack

IBM中国研究院高级研究员陈冠诚担任演讲嘉宾，他将带来的分享主题为《基于OpenStack、Docker和Spark打造SuperVessel大数据公有云》

2015年4月16-18日，由CSDN主办、CSDN专家顾问团支持的 OpenCloud 2015大会将在北京国家会议中心拉开帷幕。为期三天的大会，以推进行业应用中的云计算核心技术发展为主旨，聚焦技术创新与应用实践，设置了“2015 OpenStack技术大会”、“2015 Spark技术峰会”、“2015 Container技术峰会”三大技术峰会及多场深度行业实战培训。

本次大会将邀请近40位国内外云计算技术领域顶尖专家与一线实践者，深入讨论OpenStack、Spark、Docker、Kubernetes等开源技术的最新进展，各个核心项目/组件的演进趋势，以及它们的最新业界应用。

在“2015 Spark技术峰会”，我们请到了IBM中国研究院高级研究员陈冠诚担任演讲嘉宾，他将带来的分享主题为《基于OpenStack、Docker和Spark打造SuperVessel大数据公有云》，下面是内容简介：

随着Spark在2014年的蓬勃发展，Spark as a Service大数据服务正成为OpenStack生态系统中的新热点。另一方面，Docker Container因为在提升云资源利用率和生产效率方面的优势而备受瞩目。在IBM中国研究院打造的SuperVessel公有云中，我们使用OpenStack、Docker和Spark三项技术共同打造了一个大数据公有云服务。本次演讲我们会向大家介绍如何一步一步使用Spark、Docker和OpenStack打造一个大数据公有云，并分享我们在开发过程中遇到的问题和经验教训。

陈冠诚（@冠诚）

IBM中国研究院高级研究员陈冠诚

主要从事Big Data on Cloud，大数据系统性能分析与优化方面的技术研发。负责和参与过SuperVessel超能云的大数据服务开发，Hadoop软硬件协同优化，MapReduce性能分析与调优工具，高性能FPGA加速器在大数据平台上应用等项目。在Supercomputing（SC），IEEE BigData等国际顶级会议和期刊上发表过多篇大数据数据处理技术相关的论文，并拥有八项大数据领域的技术专利。曾在《程序员》杂志分享过多篇分布式计算，大数据处理技术等方面的技术文章。

以下为CSDN针对陈冠诚的会前采访实录：

CSDN：首先请介绍下您自己，以及您在Spark 技术方面所做的工作。

陈冠诚：我是IBM中国研究院的高级研究员，大数据云方向的技术负责人。我们围绕Spark主要做两方面的事情：第一，在IBM研究院的SuperVessel公有云上开发和运维Spark as a Service大数据服务。第二，在OpenPOWER架构的服务器上做Spark的性能分析与优化。

CSDN：您所在的企业是如何使用Spark 技术的？带来了哪些好处？

陈冠诚：Spark作为新一代的大数据处理引擎主要带来了两方面的好处：

相比于MapReduce在性能上得到了很大提升。
在一个统一的平台上将批处理、SQL、流计算、图计算、机器学习算法等多种范式集中在一起，使混合计算变得更加的容易。

CSDN：您认为Spark 技术最适用于哪些应用场景？

陈冠诚：大规模机器学习、图计算、SQL等类型数据分析业务是非常适合使用Spark的。当然，在企业的技术选型过程中，并不是说因为Spark很火就一定要使用它。例如还有很多公司在用Impala做数据分析，一些公司在用Storm和Samaza做流计算，具体的技术选型应该根据自己的业务场景，人员技能等多方面因素来做综合考量。

CSDN：企业在应用Spark 技术时，需要做哪些改变吗？企业如果想快速应用Spark 应该如何去做？

陈冠诚：企业想要拥抱Spark技术，首先需要技术人员改变。是否有给力的Spark人才会是企业能否成功应用Spark最重要的因素。多参与Spark社区的讨论，参加Spark Meetup，给upstream贡献代码都是很好的切入方式。如果个人开发者想快速上手Spark，可以考虑使用SuperVessel免费的Spark公有云服务，它能快速创建一个Spark集群供大家使用。

CSDN：您所在的企业在应用Spark 技术时遇到了哪些问题？是如何解决的？

陈冠诚：我们在对Spark进行性能调优时遇到很多问题。例如JVM GC的性能瓶颈、序列化反序列化的开销、多进程好还是多线程好等等。在遇到这些问题的时候，最好的方法是做好Profiling，准确找到性能瓶颈，再去调整相关的参数去优化这些性能瓶颈。

另一方面，我们发现如果将Spark部署在云环境里（例如OpenStack管理的Docker Container）时，它的性能特征和在物理机上部署又会有很大的不同，目前我们还在继续这方面的工作，希望以后能有机会跟大家继续分享。

CSDN：作为当前流行的大数据处理技术，您认为Spark 还有哪些方面需要改进？

陈冠诚：在与OpenStack这样的云操作系统的集成上，Spark还是有很多工作可以做的。例如与Docker Container更好的集成，对Swift对象存储的性能优化等等。

CSDN：您在本次演讲中将分享哪些话题？

陈冠诚：我将分享的话题是“基于OpenStack、Docker和Spark打造SuperVessel大数据公有云”：

随着Spark在2014年的蓬勃发展，Spark as a Service大数据服务正成为OpenStack生态系统中的新热点。另一方面，Docker Container因为在提升云的资源利用率和生产效率方面的优势而备受瞩目。在IBM中国研究院为高校和技术爱好者打造的SuperVessel公有云中，我们使用OpenStack、Docker和Spark三项开源技术，在OpenPOWER服务器上打造了一个大数据公有云服务。本次演讲我们会向大家介绍如何一步一步使用Spark、Docker和OpenStack打造一个大数据公有云，并分享我们在开发过程中遇到的问题和经验教训。

CSDN：哪些听众最应该了解这些话题？您所分享的主题可以帮助听众解决哪些问题？

陈冠诚：对如何构造一个大数据云感兴趣的同学应该会对这个话题感兴趣，开发SuperVessel的Spark as a Service服务过程中我们所做的技术选型、架构设计以及解决的问题应该能对大家有所帮助。

CSDN：您有什么需要对读者补充的吗?

陈冠诚：Spark与云的结合将会是未来一个非常热的方向，希望有更多关注这个方向的同学与我交流，谢谢大家。

声明： 此文观点不代表本站立场；转载须要保留原文链接；版权疑问请联系我们。

IBM陈冠诚：如何使用OpenStack、Docker和Spark打造一个云服务

以下为CSDN针对陈冠诚的会前采访实录：

云中的SDN：OpenStack与SDN集成调查分析

Rackspace与Red Hat联合推出OpenStack解决方案

一位SDS创业者眼中的Ceph

OpenStack Neutron之持续测试

最新调查结果：68%的受访者认为OpenStack对OPNFV的成功非常重要

美方指控“与中国有关黑客”入侵多家电信公司网络，外交部驳斥

IDC：英方软件第九次获中国专业灾备软件厂商第一

苹果推出Final Cut Pro 11：AI技术助力视频编辑，功能大升级！

官宣！英方软件与香港宽频签约合作迈出了港澳及海外市场坚实一步

一图看懂：安克诺斯一体化网络保护解决方案

阿里云盘回应相册陌生照片“乱入”问题：已快速修复，用户影响面较小

Backblaze：如何扩展公司的云存储？

以色列初创企业Datafy在种子轮融资600万美元

Cloudflare宣布R2的主要更新，包括事件通知和GCS支持

IDrive Backup新功能：云对云备份Google数据

NVIDIA 支持软银构建 AI 超级计算机，推出 AI 驱动型电信网络

液体冷却：AI 的酷方法

Qubrid AI 和 Supermicro 合作开发用于企业部署的可扩展 AI 设备

IQM Quantum Computers 公布了到 2030 年的容错量子计算发展路线图

AMD 宣布推出一系列新芯片，挑战市场霸主Nvidia

Supermicro推出完整的机架级液体冷却解决方案

铠侠推出 XD8 系列 PCIe 5.0 NVMe SSD，高达 7.68TB ，适用于云和超大规模环境

欧洲微波会议：铠侠和 MoDeCH 开发 3D 探测系统

Klevv/Essencore 正品 G560 PCIe Gen5 M.2 2280 高达 4TB SSD 和 Cras C715 PCIe Gen3 Refresh M.2 2280 高达 1TB

沙特阿美与 AI 芯片创企 Groq 签署备忘录，将在沙特建设全球最大推理数据中心

多地点运营的企业，分布式管理与集中式管理哪种更具有网络保护的优势？

Orico公司联合西部数据推出面向创作者的混合存储产品

《互联网政务应用安全管理规定》解读

大模型上岗三甲医院，给每个医生都配个“病历质控助手”

互联网政务应用安全管理规定（2024年7月1日起施行）

科技要闻

Intevac：24 财年第三季度财务业绩

SEMIFIVE 和 Synopsys 合作开发用于高级多晶粒设计的 HPC Chiplet 平台

全球第一！我国新能源汽车年度产量首次突破1000万辆

美方指控“与中国有关黑客”入侵多家电信公司网络，外交部驳斥

2024年第十批拟授予信息系统建设和服务能力贯标企业名单公示

IBM陈冠诚：如何使用OpenStack、Docker和Spark打造一个云服务

以下为CSDN针对陈冠诚的会前采访实录：

猜你喜欢

科技要闻