无论多高端的存储系统,首先提供给用户的都是存储“空间”,这些空间既可以是通过“地址”访问的(地址空间),也可以是通过“名字”访问的(名字空间),特别是非结构化的存储系统(文件存储、对象存储),需要在空间之外,提供有效的数据管理。
极道存储的差异化能力:数据感知
如何根据某一数据特征在一个目录过千万、文件数上亿的存储系统中查找到所需数据一直是一个巨大的挑战。遍历存储系统是最直接的,当然也是最差的方法。
首先,遍历存储系统意味着需要漫长的等待,而更麻烦的是往往不知道具体要等多久;
其次,我们知道遍历动作本身是一个元数据密集型的应用,对文件系统会造成性能压力。
这个需求过去一直不被存储厂商关注,但随着数据量越来越大,遍历带来的问题也越来越严重。几个小时、甚至几天都遍历不完一遍已经是常态。我们最大的存储用户,遍历其存储系统一次估计需要几个月的时间。传统上,存储厂商不认为数据管理是存储系统的责任,而这个事情可以由数据库或业务驱动的固定表结构应用来解决。这里有两个前提:
首先,表结构相对固定,并且管理的数据特征需要事先固定下来;
其次,引起数据特征变化的操作都必须通过数据管理系统,所有绕过数据管理系统直接的存储操作,都不会被数据管理系统捕获,使得整个系统无法取得完整的数据实时特征。
几乎所有的企业用户都面临着海量非结构化数据的冲击,而且往往是单一类型的数据急剧膨胀,比如基因测序仪的下机数据、生产线的监控数据等等。虽然这些数据占据了大量的存储空间,但基本上由于类型单一内涵不够丰富我们只能把它们算做“胖数据”,而不是“大数据”。
相反,关于这些胖数据的数据,也就是我们讲的数据特征或元数据才有可能是真正的“大数据”。比如,这些数据的产生时间、处理时间、处理用的模块和参数、数据的所有人、产生对象、数据的含义和解读、关联关系等等。
如果企业利用适当的工具,从容地应对这些海量数据,那么这个企业就会有很好的数据资产;反之,如果无法应对,则企业得到的是严重的数据负担。
数据管理的对象是数据特征(元数据),把握好元数据,提取完整的数据特征,是数据管理的基础。通过数据特征发现数据,组织动态的数据集合,支持对数据的分析、挖掘、机器学习,进一步发现数据和数据之间的关联关系,数据和特征之间的关系,特征和特征之间的关系,是数据管理的终极目标。
元数据:数据治理的对象
元数据(MetaData)就是关于数据的数据,也就是数据的特征。基于强关联的大规模实时元数据管理系统MetaView是极道数据系统的三大核心组件之一,实现了对极道存储系统中所有数据的有效管理。
MetaView中的元数据可以分成两个类型,工业标准的元数据,行业定义的元数据。工业标准的元数据描述了数据(文件或对象)的名字、大小、属主、创建时间、最后访问时间、修改时间、权限等等。行业定义的元数据是行业应用相关的数据特征,比如生物行业的门、纲、目、科、属、种;基因行业的样本信息及一些重要的表型信息;遥感领域的卫星过境时间、经纬度、卫星编号等等。
面对丰富的元数据,用什么技术实现一套有效的元数据管理系统是非常有挑战的,更何况极道还坚持产品上的极致追求,从开始就把元数据管理的目标设定为“不得对相关存储的IO性能有任何不利影响”。
作为可选技术之一,关系型数据库可以组织各种元数据的关联用以查询,但是需要根据不同的应用定义固定的表结构,限制了系统的通用型和灵活性,而且面对动辄几亿个、几十亿个文件的海量非结构化数据,关系型数据库的扩展性限制了可管理数据的规模。非关系型分布式数据库(NoSQL)是另外一个选择,可以满足扩展要求,但很难表达元数据之间的关联关系。显然,需要一种新的技术来存储海量的结构不固定的元数据,同时还要保留元数据之间的关联关系。
极道花了大量的时间去试错和探索,最终选择了高效的分布式图算法来实现数据管理系统。在这个系统中,每个数据和它的元数据都是图中的一个点,数据和元数据之间的关系是线,元数据和元数据之间关系也是线,这样构建的一张可扩展的复杂的图既描述了数据和元数据之间的关系,也描述了元数据和元数据之间的关系,加以极道创新的并行分布式图算法,得以高效的管理和分析元数据,快速得到分析和查询结果。
“存管协同”:让数据发现变得简单
元数据管理的另外一个难题是如何高效地获取元数据,这个问题比大家想象的要复杂。例如,在文件存储中,目录所代表的文件层次关系包含了复杂的数据依赖关系,随着数据的写入、修改、删除和文件的改名、移动等变化,文件和目录的结构也在不断变化,对应的元数据和元数据之间的依赖关系也在不断变化。
为了获取元数据和元数据的变化,最容易想到的方法肯定是不断扫描存储系统上的所有数据。然而海量数据的情形下,遍历文件系统会严重影响存储系统的性能而且实时性很差。
实时捕获元数据变化的另一种方法就是网关模式。在存储系统和客户端之间架一个数据管理网关,所有的数据操作都需要经过数据管理网关转发给存储,因此数据管理网关可以截获所有的数据特征变化。但是这种方法的弱点是数据请求转发带来了性能的损失,对性能有严格要求的一级生产存储系统,网关模式是不可接受的。
极道经过周密的考虑之后,设计了“存管协同”模式,在存储系统里嵌入元数据捕获引擎(MetaHunter),捕获所有的元数据的变化,以近实时、轻量级和绝对一致的方式带外汇报给数据管理系统,这既规避了扫描存储带来的元数据代价和实时性损失,也没有带来任何数据存取路径的额外负担。
极道数据系统,引领智能数据使能
极道的所有产品都围绕着数据的“储”和“治”。在单独做好存、管、算的同时,进一步强化协同设计:“存算协同”使能了“应用感知”;“存管协同”使能了“数据感知”;“存算管协同”将数据的“储”和“治”配合的完美无缺。
储是基础,治是手段,数据价值是目标。极道正如它的名字一样,志在为“无极的数据”打造一条具有极道特色的“储治之道”,将客户的数据价值发挥到极限。
极道——数据无极,储治有道!
声明: 此文观点不代表本站立场;转载须要保留原文链接;版权疑问请联系我们。