2016-04-25 00:52:19
来 源
ZD至顶网
超级计算机
EasyOP是软件+服务,其中软件就类似于现在的系统管理软件,能够实现对系统组件、业务情况的监控、管理,要说特别其实并没有太多特殊之处。重中之重在于服务,由中科曙光的一支专家团队提供的7x24小时支持团队,出现故障由厂商来解决,这将从根本上避免出现半

锄禾日当午,不如运维苦”,一句话就真实反映出了IT运维人员的真实处境。7x24小时的操心、劳碌,只有经历过的人才深有体会。在日前召开的中科曙光EasyOP(Easy Operation的简称)在线运维平台正式上线仪式上,来自中国科学院物理研究所的徐力方研究员表达了自己的感慨,“半夜三更穿着裤衩背心就往机房跑,虽然投入了大量的精力,但仍时刻提心吊胆。” 

曙光EasyOP:让我来接管你的HPC系统吧!

EasyOP上线仪式

其实,这不仅是他一个人面对的问题,而是广大中小型客户所面临的共同难题。相比大型企业,他们没有那么多的财力、物力、人力,但却同样需要IT来帮助他们实现业务上的提升,于是随着技术的进步,有了更多更适合他们的方式,比如云计算在某种意义上就具备这样的属性,而中科曙光发布的EasyOP同样有这层涵义。 

简单来说,EasyOP是软件+服务,其中软件就类似于现在的系统管理软件,能够实现对系统组件、业务情况的监控、管理,要说特别其实并没有太多特殊之处。重中之重在于服务,由中科曙光的一支专家团队提供的7x24小时支持团队,出现故障由厂商来解决,这将从根本上避免出现半夜三更你还得跑机房的现象出现。 

曙光EasyOP:让我来接管你的HPC系统吧!

特别指出的是,EasyOP并不是面向通用IT系统的一个在线运维平台,而是针对高性能计算这一细分领域。至于为什么开发这么一个平台,与曙光一直以来的专注方向密不可分。众所周知,曙光专注HPC(高性能计算)领域20余年,光HPC系统就卖出去1万多套。用曙光公司副总裁沙超群的话来说,他们一直以来都在思考除了系统,还能为客户提供什么样的服务。在这样的发展思路指导下,也就有了EasyOP。 

从产品功能而言,EasyOP能够实现监控数据的实时远程采集、海量数据的存储与展示、故障的分析与定位技术、大量数据的统计与分析、移动终端的集成与推送(微信、短信)。这些可能听着比较抽象,但在与徐力方的交流中,我们得到的反馈是完全解放。在接入EasyOP后,他不再操心这些,一切都在掌控之中。

话说EasyOP早在去年的HPC China 2015(2015全国高性能计算学术年会)上就亮过相,从那时候至今的半年时间内,曙光也一直在积极地进行测试,包括中国科学院物理研究所在内的20家客户都是它的首批用户。 

从实际情况来看,EasyOP累计接入来自20组HPC集群的超过7800个节点,应用涵盖CAE、气象、海洋、物理、生物、材料及互联网6大领域,对所有接入集群资产全面监控的指标超过180项。从周期上看,EasyOP接入时间跨度分布合理,系统满负载和低负载的情况均包含在内。在监控的7800多个节点中,CPU的最高和平均利用率为83%和70.1%,内存的最高和平均利用率为40%和25.5%,存储的最高和平均利用率为23%和20.3%。另外,在EasyOP接入的资源作业中,中短时长作业占近70%,作业排队率约为1/5。 

根据测试结果,试运营半年期间,全部集群共自动触发近2900条通知信息,其中2281条是因计算节点主要部件温度升高触发的轻微类通知。严重类通知仅有3条,其中两条起因自共享存储挂载故障,一条系严重级别温度过高导致节点自动关机。 

应该说EasyOP的正式发布是经历了严格测试的,而且还有一个好消息是EasyOP一年内免费试用,至于1年后是否收费、怎么收费尽管现在还没确定,但是曙光高性能产品事业部总经理曹振南在接受采访时表示,在基础设施运维服务这一层,他们目前考虑的还是倾向于免费,也就是说未来EasyOP很可能也是免费的。 

点评:

云计算是一种集中的资源供给,而EasyOP的思路则是集中式的运维,前者对于缺乏技术、资金实力的中小企业是一种利好,后者同样是利好,特别是在基本不收费的情况下。从徐力方的情况来看,对EasyOP颇为满意,而从中国软件行业协会数学软件分会常务副秘书长姚继锋博士的调研情况来看,像中国科学院物理研究所这样的情况并不少见,也就是说未来EasyOP的市场空间还是很大的。沙超群谈到,EasyOP的目标是首先覆盖曙光自己的1万套系统,未来还会继续考虑是不是进一步涵盖友商的系统。 

运维是不少HPC用户需要面临的难题,而EasyOP提供了一种方式或者思路。

声明: 此文观点不代表本站立场;转载须要保留原文链接;版权疑问请联系我们。