2010-07-28 13:13:05
来 源
中国存储网
存储资讯
持续不断的数据量增长,或被称为信息爆炸对于众多企业和专业存储结构来讲已经是司空见惯的名词了。多数人都同意这种观点,即新的业务应用程序被不断的开发、数据媒体服务以及

持续不断的数据量增长,或被称为“信息爆炸”对于众多企业和专业存储结构来讲已经是司空见惯的名词了。多数人都同意这种观点,即新的业务应用程序被不断的开发、数据媒体服务以及社交网络工具的出现,更催生了大量的数据,使得数据增长速度雪上加霜,这些数据将会持续增加对存储系统的需求。

所以,许多存储环境已经将它们关注的焦点转移到了如何在备份过程中缩减需要备份的数据上面了。第一个能够让你想到的数据缩减方案是数据压缩和重复数据删除技术,还有其他的数据缩减技术,诸如单一实例存储(Single-Instancestorage,SIS)、数据归档以及数据重构/删除。

早在上世纪70年代,为了解决日益增长的文本文件存储在硬盘中而空间占用过大的问题,数据压缩算法被开发了出来。数据压缩工具比如LempelZiv(LZW),代表了早期人们对数据缩减所做的努力。而到了20世纪初期,重复数据删除技术浮出水面并且在近几年内得到了广泛的普及。然而,取决于被操作的数据目标,这两种技术都在性能以及能力上有各自的局限

比如,文本或者数据库对应的数据会得到不错的压缩比,但是图像和视频文件则非常难以被压缩,除非损失一定的分辨率和品质。重复数据删除的比率也会根据所操作的目标数据而有迥异的去重比率。比如,被加密的数据一般会得到很低的去重比率,因为加密会对数据产生随即效应。此外,重复数据删除依然没在主存储系统中得到太多应用,由于性能问题,它更加适合被使用在二级存储系统中,比如数据备份归档系统中。

下一代数据压缩技术

数据压缩技术已经取得了一些主要进展,诸如OcarinaNetworks和StorwizeInc这样的公司已经找到了一种可以绕过系统主CPU而在主机和一级磁盘之间增加一个单独设备而进行数据压缩的方法。当被压缩的数据被从主存储移动到二级存储上比如备份或者归档介质之后,这里还可以使用重复数据删除引擎对它们再次进行Dedup操作,锦上添花。然而,这种技术毕竟是新出现的技术,而且目前仅支持NAS系统。将来可能会发布支持FC或者ISCSI的版本,而且还需要与当前的主流技术相兼容,比如FCoE。

其他数据缩减选择

不幸的是,除了重复数据删除和压缩之外,能用于数据缩减的技术非常有限,甚至可能根本不会降低数据的占用空间。所剩的另一种数据缩减技术是数据删除/重排(datadeletion/disposition),当前它可以在技术角度上做到,但是却需要更多的人为因素介入,比如“策略”。在讨论数据重排之前,我们先来看另一个数据缩减技术。

单一实例存储

SIS是一种在特定的存储系统数据范围内查找完全一致的文件,找到之后将所有冗余的副本删除而只保留指针指向唯一被保留的那份文件的技术。这种技术的一个例子是MicrosoftExchange,如果有同一份附件被发送给了30个收件人,那么这份附件将只被保存一份,收件人的收件箱中所表现的只是一个指针。这对最终用户是透明的,就像30个收件人每人的收件箱内都有一份附件一样。这个例子中,数据缩减比率就是30:1。这种数据缩减方法在一个众多用户共享大量相同文件的存储环境中,非常有效。

数据归档

数据归档经常被高估为一种数据缩减方法。但是实际上,它只不过是在迁移数据而已。数据归档工具可以将很少被使用的或者将来不会再被使用的数据移动到另外的存储介质或者位置上,从而可以降低对主存储的日常数据管理复杂度。

然而,虽然数据归档可以降低生产系统中的数据量,但是它并没有降低整个存储系统中的数据量。这是因为数据在从主系统被移动到磁带或者其他存储介质时,并没有执行任何数据缩减处理。但似乎,如果将数据归档与SIS、重复数据删除、压缩等技术相结合之后,那么此时才真正可以实现数据缩减。

数据删除

在重复数据删除、压缩以及SIS都不能够满足要求的环境下,那么数据删除就是唯一一个可供选择的方法了。然而,数据删除时所有存储从业者或者商业经理所最不愿意做的了。原因是因为业界有众多的法规来控制数据删除,比如freedomofinformation,e-discovery等,我们需要遵从法规。在删除数据之前,有一些需要看考虑的事项:

针对在何种服务器上存储何种类型的数据,制定一个清晰的策略。文件服务器经常被用来存储用户数据,而且很多公司并不会花费时间和精力来看一看到底服务器硬盘上都存储着些什么。用户将一些音乐、照片或者电影文件放在服务器上的现象屡见不鲜。

制定一个邮件保留策略,然后贯彻执行这个策略。实现这个策略的一种方式是部署一套邮件归档工具,比如Symantec的EnterpriseVault。Symantec的EnterpriseVault可以让你将邮件和消息进行归档,而且可以从归档的数据中进行查询,而且还可以设定一个保留时间,超过保留时间的归档数据可以被自动删掉。这套工具还可以支持一般文件系统以及MicrosoftSharePoint对应的数据。同时,也有其他一些邮件归档工具,比如Informatica Corp公司的产品就是专门为那些后台使用数据库的应用程序(比如CRM和ERP)所设计的。

要注意到PST(personalemailarchivefiles)文件,尤其是当要执行邮件删除策略时。很多用户发现,当邮件被自动归档或者删除之前,他们可以将邮件信息存储在PST文件中。这种行为会破坏数据缩减的比率,尤其是当用户将这些PST文件存储在对应的文件服务器中的时候。PST文件的存在也是对邮件删除策略的一种破坏,因为邮件原本应该已经被删除,而当前却仍在系统中保留了原邮件中的信息,而且还可以被访问。

综上所述,可用于数据缩减的技术依然有限。在某些环境中,比如数据本身的格式决定了去重比率不高时,或者数据存储在不支持下一代压缩技术的设备(FC、ISCSI)上时,此时,直接将文件删除可能是实现数据缩减目标的唯一可行的办法了。删除文件并不是意见毫无意义的事情,但是你需要谨慎决定,同时遵循法规。删除文件同样需要一个清晰的策略以及需要鉴定的执行这些策略。施加和贯彻这个策略的本质,就像如果没有警察的强制管理,汽车时速限制就像一纸空文一样。

声明: 此文观点不代表本站立场;转载须要保留原文链接;版权疑问请联系我们。