Hadoop是数据仓库的终结者吗?

2014-01-13 00:00:00

来源
中存储

大数据

在过去三年，Hadoop生态系统已经大范围扩展，很多主要IT供应商都推出了Hadoop连接器，以增强Hadoop的顶层架构或是供应商自己使用的Hadoop发行版。鉴于Hadoop的部署率呈指数级的增长，以及其生态系统不断地深入而广泛地发展，我们很想知道Hado

在过去三年，Hadoop生态系统已经大范围扩展，很多主要IT供应商都推出了Hadoop连接器，以增强Hadoop的顶层架构或是供应商自己使用的Hadoop发行版。鉴于Hadoop的部署率呈指数级的增长，以及其生态系统不断地深入而广泛地发展，我们很想知道Hadoop的崛起是否会导致传统数据仓库解决方案的终结呢。

我们也可以将这个问题放到一个更大的环境中去讨论：在何种程度上，大数据会改变传统数据分析的环境?

数据仓库是技术和软件套件，它能够从操作系统收集数据，并将这些数据整合，并统一到中央数据库中，然后对数据仪表盘上指标进行分析、可视化和追踪关键性能处理。

数据仓库和Hadoop之间的主要区别是：数据仓库通常部署在单个关系数据库中，而这个数据库则起到中央存储的作用。相比之下，Hadoop及其Hadoop文件系统是跨多个机器，并用来处理海量数据的，而这是任何单台机器都达不到的能力。

此外，Hadoop生态系统包括构建在Hadoop核心之上的数据仓库层/服务，而Hadoop上层服务包括SQL(Presto)、SQL-Like(Hive)和NoSQL(Hbase)类型的数据存储。相比之下，在过去的十年中，大型数据仓库转移到使用自定义多处理器设备来扩展数据量，像Netezza(被IBM收购)和Teradata所提供的数据仓库。然而，这些设备都非常昂贵，大多数中小企业都负担不起。

在这种背景下，我们很自然地要问：Hadoop是否是数据仓库的终结者?

为了回答这个问题，我们需要将数据仓库技术与数据仓库部署分开来看。Hadoop(和NoSQL数据库的出现)将预示着数据仓库设备和传统数据仓库单一数据库部署的消亡。

而在这方面就有过实例。Hadoop供应商Cloudera将其平台作为“企业数据枢纽”，这在本质上将传统数据管理解决方案的纳入了需求。ReadWrite.com在最近发表的一篇题为“为什么专有大数据技术没有希望与Hadoop竞争”的文章中也发表了类似的看法。同样地，最近一篇华尔街日报文章描述了Hadoop如何挑战甲骨文和Teradata。

Hadoop或NoSQL生态系统仍将继续发展。很多大数据环境开始选择NoSQL、SQL甚至是NewSQL数据仓库的混合方法。此外，MapReduce并行处理引擎也有变化和改进，例如Apache的Spark项目。虽然这个故事还远远没有结束，但可以说，传统的单一服务器关系型数据库或数据库设备并不是大数据或数据仓储的未来。

另一方面，数据仓库技术(包括提取—转换—和—加载、三维建模和商业智能)将会应用到新的Hadoop/NoSQL环境。此外，这些技术也将变身来支持更多的混合环境。主要原则是因为并不是所有数据都是平等的，所以IT经理们应该选择数据存储和访问机制来适应数据的使用。混合环境将包括关键价值存储、关系型数据库、图形存储、文档存储、柱状存储、XML数据库、元数据目录等等。

正如你所看到的，这并不是一个简单的问题，也不可能简单地得出一个答案。然而，一般情况下，虽然大数据在未来五年内将会改变数据仓库的部署，但它不会导致数据仓库的概念和做法过时。

　　对于向数据仓库投入巨资的联邦政府这意味着什么呢?

首先，当现有数据仓库的容量不够时，数据仓库将被转移到基于Hadoop、多机器或云托管的解决方案。其次，企业并不会选择“放之四海而皆准”的做法，而会将目光转向适合其企业内部数据容量的混合存储方法。

声明： 此文观点不代表本站立场；转载须要保留原文链接；版权疑问请联系我们。

Hadoop是数据仓库的终结者吗?

深入Nutch index源代码解析(一)

深入Nutch index源代码解析二)

大数据初创企业Metanautix获投700万美元

用科学示例描述大数据与数据挖掘的相对绝对关系

十种程序语言帮你读懂大数据的“秘密”

美方指控“与中国有关黑客”入侵多家电信公司网络，外交部驳斥

IDC：英方软件第九次获中国专业灾备软件厂商第一

苹果推出Final Cut Pro 11：AI技术助力视频编辑，功能大升级！

官宣！英方软件与香港宽频签约合作迈出了港澳及海外市场坚实一步

一图看懂：安克诺斯一体化网络保护解决方案

阿里云盘回应相册陌生照片“乱入”问题：已快速修复，用户影响面较小

Backblaze：如何扩展公司的云存储？

以色列初创企业Datafy在种子轮融资600万美元

Cloudflare宣布R2的主要更新，包括事件通知和GCS支持

IDrive Backup新功能：云对云备份Google数据

NVIDIA 支持软银构建 AI 超级计算机，推出 AI 驱动型电信网络

液体冷却：AI 的酷方法

Qubrid AI 和 Supermicro 合作开发用于企业部署的可扩展 AI 设备

IQM Quantum Computers 公布了到 2030 年的容错量子计算发展路线图

AMD 宣布推出一系列新芯片，挑战市场霸主Nvidia

Supermicro推出完整的机架级液体冷却解决方案

铠侠推出 XD8 系列 PCIe 5.0 NVMe SSD，高达 7.68TB ，适用于云和超大规模环境

欧洲微波会议：铠侠和 MoDeCH 开发 3D 探测系统

Klevv/Essencore 正品 G560 PCIe Gen5 M.2 2280 高达 4TB SSD 和 Cras C715 PCIe Gen3 Refresh M.2 2280 高达 1TB

沙特阿美与 AI 芯片创企 Groq 签署备忘录，将在沙特建设全球最大推理数据中心

多地点运营的企业，分布式管理与集中式管理哪种更具有网络保护的优势？

Orico公司联合西部数据推出面向创作者的混合存储产品

《互联网政务应用安全管理规定》解读

大模型上岗三甲医院，给每个医生都配个“病历质控助手”

互联网政务应用安全管理规定（2024年7月1日起施行）

科技要闻

Intevac：24 财年第三季度财务业绩

SEMIFIVE 和 Synopsys 合作开发用于高级多晶粒设计的 HPC Chiplet 平台

全球第一！我国新能源汽车年度产量首次突破1000万辆

美方指控“与中国有关黑客”入侵多家电信公司网络，外交部驳斥

2024年第十批拟授予信息系统建设和服务能力贯标企业名单公示

Hadoop是数据仓库的终结者吗?

猜你喜欢

科技要闻