当“大数据”成为人们话题时,Apache Hadoop经常是紧追其后。有一个很好的理由来说明这个问题:Hadoop有一个不惧导入不同数据结构的文件系统,还有一个大规模并行处理系统(MPP)来快速处理庞大数据集。况且,由于Hadoop建立在商用硬件和开源软件基础上,它兼具低廉和可扩展的优势。
这些特点使得Hadoop架构成为很吸引CIO的一项技术,特别在他们面临着既要引进更多差异化、新型数据,又要控制成本的压力情况下更是如此。Forreste的企业架构师Brian Hopkins认为,仍用之前那种方式运营已经不能有效满足需求。
他说:“本土企业级数据仓库的扩容费用高得吓人。大规模并行处理系统(MPP)数据仓库设备通过它的并行架构降低了数据仓库成本。但即便如此,该成本效益也还伴随着一个问题。那就是每TB数据的成本仍然相当高。”
因此,尽管Hadoop的标价有诱惑力,但它并不是所有大数据问题的最优技术方案。该技术还相对较新、不够完善,这意味着它必然会伴随相应的症结和问题。那么,CIO要如何确定在何时部署Hadoop框架呢?下面是Ancestry.com公司用Hadoop来摆脱困境的三个场景,这给家谱网类站发出了明确启示,迎接Hadoop的时机到了。
启示1:强化数据处理性能却不用支付“头等舱”费用的能力
直到三年前,Ancestry.com仍在使用内建数据处理架构,但随着家谱记录、订阅人数和服务内容的增长,逐渐达到了数据架构的扩展极限。一直以来试图处理好4PB数据的Ancestry.com公司的IT部门,终于向Hadoop寻求帮助解决数据处理的问题。尽管如此,该公司的家谱网站仍继续在用SQL服务器型数据。许多数据先是进入Hadoop,然后再转移到数据仓库进行每日分析。
Ancestry.com工程部高级副总裁Scott Sorensen说,“我们发现,对我们来讲最好的数据架构就是有一个贮存器,能够让我们把大量数据注入Hadoop,而在数据仓库只储存少量数据。”
Hopkins把这称作“合理成本”性能,也就是,使数据仓库在利用率和成本上都得到更有效利用。许多企业在对他们的数据仓库性能进行评估时发现,很大一部分数据并未得到访问和分析——这一数据有时高达60%,Hopkins说。Gartner公司的最近一份调查报告显示,当分析技术和数字技术的地位越来越重要时,IT预算如果仍保持不变,其导致的低效会损害竞争优势。
“企业采用了诸如Hadoop这样的方式把冷资料在昂贵数据仓库中所占用的空间腾出来。保留冷资料是出于储存和历史原因,提取冷资料则是用于分析和Hadoop中像Hive这样的功能,但好处是企业不用再支付高额费用了。”
启示2:需要支撑新的收入项目、或者依赖于大数据的新产品或新服务
今天,Ancestry.com公司正在着手进行一项新服务:常染色体DNA测试。订阅参与者将有机会通过遗传匹配发掘出潜在的家族扩展关系。尽管DNA测试不是该公司转向Hadoop技术的首要原因,这项服务的成功很大程度上依赖于它。
Hopkins说,“发掘欲望”在具体的业务需求上——特别是在使用Hadoop之前根本不够用的需求——是另一个驱动企业转向这个开源框架的动力。
“这些为了支撑新收入、产品创新或服务创新的全新应用案例,”Hopkins说,“在市场营销和客户智能领域,你会看到更多。”
其中一个应用案例是被称为“720度客户视图”的数据获取,具体来说就是在单一的位置上集成了内部来自于呼叫中心和邮件的数据和外部来自于社交媒体的数据,用来提供更有意义的客户档案。
不是每一个依赖数据的业务计划都会需要Hadoop。Jeff Kelly是Wikibon.org的首席研究人员和SiliconANGLED的特约编辑,他指出Hadoop的动人之处在于它能够存储和处理部同类型的大量数据。从外部引入诸如文字、图片、网络博客以及其他数据品种进入内部业务数据管理环境,这类需求提供了快捷的Hadoop部署的试金石。如果业务不必集成这些类型的数据,CIO大可不必打扰Hadoop。
“如果你的数据大部分是结构化的并且来自于内部,那么真的没什么理由把这些数据放进Hadoop集群中,”Kelly说。“传统的技术已经处理的很好……没理由再去建另外一个你不需要的框架。”
启示3:需要拓宽业务模式
Ancestry.com进军常染色体DNA测试并不是简单的提供一项新的服务;这个家谱调研公司正在建设一个新的业务武器。
Ancestry.com对于DNA序列的分析意味着它正步入生物信息学领域。该公司现在拥有生物信息专家一小组正在对学术界的算法进行调整和重新开发,以便处理Ancestry.com自己的项目规模。在这个新方向上的业务发力有可能把家谱调研推向另一个高度:连接起用户和他们可能从来没有想到能发现的远方的亲戚。
“我们能够拿到DNA数据,但并不仅仅把它用于DNA匹配,”Ancestry的Sorensen说。“我们能够拿它和我们拥有的4千4百万(家族)树进行组合。当我们能够组合这两套数据时,那才是真正强大。”
利用数据帮助企业发展并不一定意味着要应对一个全新的领域,就像Ancestry.com所做到的。通过一种对数据的全新应用,能够带来对业务一直从事的进行重新定义。这通常需要业务深入到更多数据,或者进行预测分析或是数据挖掘,部署Hadoop可以帮助到所有这些。
Kelly同意这种看法。“如果你的企业正期望变得更加数据驱动化,但是因为你的基础架构不支持某一类你想做的分析,你就不能把数据整合起来,那么,这些迹象表明,这是时候开始寻找其他方式了,”他说,这类搜索很可能应该开始使用Hadoop。
自动安装的Hadoop在/usr/local/Cellar/hadoop路径下。需要注意的是,在使用brew安装软件时,会自动检测安装包的依赖关系,并安装有依赖关系的包
数据不仅代表着生产力,还将成为重要的资产,或许在将来,我们留给下一代的资产,不是银行里有多少存款,而是信息资产;也许10年、15年之后,会有国家的数据银行,相对今天的财富资产,里面保存的是我们的信息资产。
Netflix已经把触角深入到大数据工作负载的领域。Netflix是一个“重量级”的Hadoop用户,在2012年6月份Gigaom的记者Derrick Harris就撰文阐述了Netflix如何收集用户的数据,进而使用一些方法来对这些数据进行分析.
YARN本质上是Hadoop的新操作系统,突破了MapReduce框架的性能瓶颈。Murthy认为Hadoop和YARN的组合是企业大数据平台致胜的关键。
想知道Hadoop在Aix下的安装是否会有什么不同,于是心血来潮的安装了一遍,过程记录如下:1.在Aix上安装解压缩软件,安装Java等,这里就不说了。2.下载Hadoop0.21.0版本,并解压至特定目录下,这里解压到 /home/cqq/hadoop-0.21.0。
【聚焦搜索,数智采购】2021第一届百度爱采购数智大会即将于5月28日在上海盛大开启!
本次大会上,紫晶存储董事、总经理钟国裕作为公司代表,与中国—东盟信息港签署合作协议
XEUS统一存储已成功承载宣武医院PACS系统近5年的历史数据迁移,为支持各业务科室蓬勃扩张的数据增量和访问、调用乃至分析需求奠定了坚实基础。
大兆科技全方面展示大兆科技在医疗信息化建设中数据存储系统方面取得的成就。
双方相信,通过本次合作,能够使双方进一步提升技术实力、提升产品品质及服务质量,为客户创造更大价值。