2013-10-15 23:27:19
来 源
中存储
磁盘存储
早在2011年华为海量存储产品就已经得到了CERN的好评,同年11月,双方展开合作,上帝粒子的发现过程以及华为存储所做的贡献做一个解读。

  日前2013年的诺贝尔物理学奖被颁发给了比利时理论物理学家弗朗索瓦·恩格勒和英国理论物理学家彼得·希格斯,获奖缘由是两人1964年各自提出了希格斯玻色子理论。希格斯玻色子,又称“上帝粒子”,是最后一种未被发现的基本粒子,也是解释物质质量之谜的最重要粒子。

  事实上,真正发现上帝粒子、做出具体实验工作的还有位于瑞士日内瓦近郊的欧洲核子研究中心(European Organization for Nuclear Research,简称 CERN)。他们20多年来的努力并最后发现新粒子,为理论学家们获奖提供了最有力的证据支持。

  在CERN的工作中会利用大型强子对撞机进行大量的实验,在这个过程中对存储的要求是非常高的,而华为存储的UDS做到了,这篇文章则将对上帝粒子的发现过程以及华为存储所做的贡献做一个解读。

  希格斯玻色子“上帝粒子”与希格斯场

  众所周知化学领域有一张非常有名的元素周期表(最早由门捷列夫提出),这张元素周期表一个很大的作用就是语言了很多未知元素的存在,按照元素周期表规律人们发现或者创造了很多新的元素(比如镭)。物理领域也有一个这样的模型,被称为标准模型, 在粒子物理学中,标准模型是一套描述强力、弱力和电磁力等三种基本力,以及组成所有物质的基本粒子的完美理论。而希格斯玻色子是这个标准模型的最后一个粒子了,它负责给其它粒子以质量。

  希格斯玻色子提出是在1964年,英国物理学家彼得·希格斯发表了一篇学术理论文章,提出一种粒子场的存在,预言一种能吸引其他粒子进而产生质量的玻色子的存在。他认为,这种玻色子是物质的质量之源,是电子和夸克等形成质量的基础,其他粒子在这种粒子形成的场中游弋并产生惯性,进而形成质量,形成宇宙,构筑成大千世界。这种理论中的粒子后来被别人以“希格斯”的名称命名,外号“上帝粒子”。

  CERN发现希格斯玻色子

  2011年12月13日,CERN科学家宣布,他们发现了希格斯玻色子存在的迹象。但经考虑实验其它误差后,宣布实验结果无效。2012年7月CERN宣布在其大型强子对撞机(LHC)试验中发现了希格斯玻色子,“上帝粒子”的理论被提出将近50年后被证实。希格斯本人在发布会上表示CERN的工作是“一项伟大的成就”,这个发现也是非常难以置信的。

  这里提到CERN的实验,设备是一座位于瑞士日内瓦近郊CERN的粒子加速器与对撞机,作为国际高能物理学研究之用。北京时间2008年9月10日下午15:30正式开始运作,成为世界上最大的粒子加速器设备。 LHC包含了一个圆周为27公里的圆形隧道,因当地地形的缘故位于地下50至150米之间。大型强子对撞机将两束质子分别加速到7TeV(7万亿电子伏特)的极高能量状态,并使之对撞(其能量状态可与宇宙大爆炸后不久的状态相比),其通过环形隧道内分布的1.5亿个感应器来收集和传递实验数据。寻找标准模型预言的希格斯粒子是LHC任务之一,除此之外LHC还在探索超对称、额外维等超出标准模型的新物理有很大的贡献。

  CERN将实验所产生海量数据通过其遍布全球的140多个计算节点(目前已有超过250k的CPU及超过150P的存储系统)进行分流和存储。仅8月份,CERN有大约4PB的数据,约2.6M个文件从CERN传递到11个Tier 1的数据中心,并由这些Tier 1数据中心继续分流到全球140个Tier 2数据中心进行存储与分析。 随着实验规模和级别的不断提升,2012年,CERN产生的实验数据达到20PB,预计2013年将达到25PB。

  LHC对其每个组成部分要求都是十分苛刻的。就对存储的要求而言,可以概括为以下几个方面。首先是实验中,一次碰撞试验传感器所产生的数据经过过滤后的待存储的有效数据流可以达到6GB/s,而且对撞机需要以每秒4000万次撞击的频率全天开启。产生之后,照前文所说实验数据分布于全球100多个数据中心,数据中心之间的交互,对PB级数据的管理、分析和统计以及备份都是存储面临的巨大挑战。

  CERN对存储的要求及华为存储的优势

  上文中简述CERN对存储方案的要求大概可以包含三个方面。首先是可靠性。特别是在实验中,存储系统是绝对不能宕机的;第二是性能。每秒4000万次撞击,1.5亿个感应器,对存储的要求是做到极高的带宽并保持很长时间;第三是TCO和扩展能力。预计CERN在2013年将会产生25PB实验数据,这一数据在2012年是20PB。那么是说CERN每年都需要采购大量的存储设备加到自己的数据中心。所以高性价比和良好的扩展能力是CERN对存储设备的基本要求。

  华为的UDS完全可以满足CERN对存储的需求。总结来看包括下面四大优势:

  可靠性

  UDS分布式架构的另外一个好处是,提升了单个节点故障下的系统可靠性。与此同时,UDS将用户数据切割成小颗粒的元数据,在存储这些元数据时,UDS支持多副本与擦除编码(EC)两种方式来存储数据,提升了单块硬盘故障下的数据可靠性。从系统运行至今,CERN尚未丢失过实验数据。

  性能

  由于采用分布式架构, 随着存储节点数量的增加, UDS的吞吐能力可以持续提升。 CERN分别对4K~100M的不同大小的文件进行从单个、20个、200个客户端的长时间测试:

  在5Gb/s的传输带宽下,UDS可达到588.4MB/s的吞吐量;

  在18Gb/s的传输带宽下,UDS可达到2200MB/s的吞吐量。

  测试结果表明,UDS的吞吐能力几乎达到了传输接口带宽限制的极限(将吞吐量乘以8,即可换算为传输带宽),其读写性能均高于用于参考比对的Open stack和CERN现有的EOS系统,CERN给出的性能测试结论为“Fully achieved expected performance”。

  TCO 与扩展

  UDS采用分布式架构,用户数据被分散存储到多个存储节点,这种“去中心”的设计消除了扩容的瓶颈,使得整个系统的扩展非常灵活,如跨地域部署、异地容灾等,可以轻松实现从TB级到EB级的存储容量。

  UDS采用业界独特的ARM架构,并在保证高可靠的前提下率先支持消费级硬盘。ARM和消费级硬盘的超低功耗,首先帮助CERN大幅降低了设备运行时的功耗。同时,UDS支持特有的免即时维护特性,有利于CERN减少不必要的维护人员。

  CERN与华为存储的合作

  早在2011年华为海量存储产品就已经得到了CERN的好评,同年11月,双方展开合作,华为以Contributor加入CERN OpenLAB(CERN OpenLAB可见)。2012年1月完成部署1PB海量存储系统。紧接着2012年伊始,经过超过6个月的严格验证测试,华为海量存储系统UDS被证实完全满足客户在性能和扩展性方面的要求。CERN OpenLAB高管亲临华为HCC大会,发布了测试通过的结论。

  至于2013年,华为将正式成为CERN OpenLAB的partner(目前是HP,SIEMENS,INTEL,ORACLE)。继续LHC的相关科研活动,特别是尝试通过UDS存储系统拉通欧洲和中国科学家的数据共享。此外CERN明年会在匈牙利构建更大的数据中心,华为将参与其中存储部分的建设。

  希格斯玻色子的发现给CERN带来了很大的名气,当然华为存储也证明了自己的实力。正如CERN OpenLAB的总负责人鲍勃•琼斯对华为UDS项目评价所说,“CERN在执行数据密集型模拟和分析方面正在面临极限,同华为的合作为我们展现了一个令人激动的新途径,我们看到华为云存储优良的架构设计,使得CERN在应对未来EB级数据量的挑战时也能够轻松应对。”

声明: 此文观点不代表本站立场;转载须要保留原文链接;版权疑问请联系我们。