大数据是无法定义的术语之一--毫无疑问,一些供应商将硬盘从500GB升级到1TB,就会称为大数据。
“大数据对IT来说没有特别的定义,当人们谈及大数据时唯一符合他们意思的就是以什么方式看待它” Ptak,Neol and Associates公司的分析师Mike Karp说。“或者,用作家Douglas Adams的话说,就是‘相当大’。”
关于大数据的最重要的特点是,传统的数据处理工具或存储管理技术不能充分处理它。因此,在竞争激烈的行业划分中,所有这些数据是如何转为可利用的知识产权,已成为行业领导者和落伍者之间的关键区分。
“分析工具和具有分析技能的人,将成为推动世界经济向前发展的主要动力”Karp说。
考虑到这一点,让我们看看一些有趣的大数据部署。
1.Watson
Karp表示IBM已成为大数据行业的领导者,该公司正在进行基础研究以及产品研发。
“沃森因几个月内成功应对危险挑战而着名,大数据只是它获胜的众多因素之一。”Karp表示,“我们期待看到IBM如何从研发到产品线转变。”
2.CA
Karp指出CA也在大数据这领域做了些事情。
“CA在大数据领域也做了些工作,不过处于保密状态,也许在一两个季度内不会对市场开放。”他说,“他们肯定在做我们十分关注的事情。”
3. Hadoop
如果你想分析内容的话,主要会两条路可以选择,无论这些内容是否是结构化或非结构化:专有的分析工具(IBM,CA和其他许多)和开源工具。后者更多意味着Hadoop--一个Apache开源社区项目。
“在开源领域中,许多企业依赖于Hadoop提供基本的分析工具实现集群和高性能系统。”Karp说。
4. GreenPlum
EMC是很快意识到大数据发展潜力的另一个大厂商。在一年多以前,它收购了专门做分析的厂商GreenPlum。Karp指出,GreenPlum非常关注开发两层Hadoop代码,一个可以与来自Hadoop社区的开源代码实现连接操作,另一个可以被认为是开放社区Hadoop专门扩展的“企业级”产品。
5. Engenio
当涉及到大块的宽带时,NetApp的状况看起来不错,它把从LSI收购的Engenio作为它的E系列推出。
“它在吞吐量性能类型应用作为一个块驱动或附加在NAS后及基于目标的集群时,做得非常出色。”StorageIO Group分析师Greg Schulz说。
6. pNFS(pNFS是神马?)
通过并行NFS(pNFS)有利于满足一些大数据需求,从而实现设备间高速数据迁移。代表了并行I/O的标准化,同时它允许客户直接并行访问存储设备。这消除了NFS服务器可能存在的可扩展性和性能等问题。
PNFS让你做很多事情。例如,你可以将一个文件条跨到多个NFS服务器上,这实际上与RAID0相似。RAID0通过允许多个硬盘并行处理数据来提升性能。而pNFS把这点扩展到多个通过网络连接到多个NFS客户端的存储设备。
“如果使用NAS文件共享和NFS,考虑pNFS,如果你的需求是并行连续处理大型文件的话。”Schulz说。
Schulz警告大数据有不同的使用情况。因此,企业不应急于采用大数据应用的最新成果。对于更多关注应用程序分析和处理要求的,他说,有很多专业的解决方案,如HP的Vertica和IBM的Neteza,除此还有很多高性能的NAS或者目标系统。某些特定情况下,可能要充分考虑处理一个特殊品牌的大数据。
同样,针对视频、安全监控、闭路电视、模拟、大宽带或吞吐量,解决方案有IBM SONAS、HP IBRIX、Dell Exanet、BlueArc、HDS、NetApp、Data Direct Networks、Oracle 7000、EMC Isilon和VNX等。
大数据是另一个可能需要新大数据应用、解决方案与特定体系架构紧密结合的领域。
“对于以数据库为中心的大数据,有来自Terrdata及甲骨文的解决方案,例如Exadata II系统。”Schulz表示。
最后一点,你将做好面对劝说你迁移到昂贵系统的市场炒作的准备。可能你已经做得足够好--如果可以扩展的话,厂商目前提供给你的并不是最适合你的环境的。
“留心对大数据的炒作,他们也许想要缩小你的选择范围,去考虑他们特定的方案和产品。”Schulz说,“除了大数据带来的机遇,还有很多需要考虑,例如特性、应用、用例及解决方案。”
声明: 此文观点不代表本站立场;转载须要保留原文链接;版权疑问请联系我们。