为什么很多公司的大数据相关业务都基于 Hadoop 方案？-大数据-中存储网

2014-03-03 00:00:00

来源
中存储

大数据

选择Hadoop的原因最重要的就是这三点：1，可以解决问题； 2，成本低； 3，成熟的生态圈。一，Hadoop帮助我们解决了什么问题无论国内还是国外的大公司对于数据都有着无穷无尽的渴望，都会想尽一切办法收集一切数据，因为通过信息的不对称性可以不断

选择Hadoop的原因最重要的就是这三点：1，可以解决问题； 2，成本低； 3，成熟的生态圈。

　一，Hadoop帮助我们解决了什么问题

无论国内还是国外的大公司对于数据都有着无穷无尽的渴望，都会想尽一切办法收集一切数据，

因为通过信息的不对称性可以不断变现，而大量的信息是可以通过数据分析得到的。

数据的来源途径非常的多，数据的格式也越来越多越来越复杂，随着时间的推移数据量也越来越大。

因此在数据的存储和基于数据之上的计算上传统数据库很快趋于瓶颈。

而Hadoop正是为了解决了这样的问题而诞生的。其底层的分布式文件系统具有高拓展性，通过数据冗余保证数据不丢失和提交计算效率，同时可以存储各种格式的数据。

同时其还支持多种计算框架，既可以进行离线计算也可以进行在线实时计算。

　　二，为什么成本可以控制的低

确定可以解决我们遇到的问题之后，那就必须考虑下成本问题了。

1，硬件成本

Hadoop是架构在廉价的硬件服务器上，不需要非常昂贵的硬件做支撑

2，软件成本

开源的产品，免费的，基于开源协议，可以自由修改，可控性更大

3，开发成本

因为属于二次开发，同时因为有非常活跃的社区讨论，对开发人员的能力要求相对不高，工程师的学习成本也并不高

4，维护成本

当集群规模非常大时，开发成本和维护成本会凸显出来。但是相对于自研系统来说的话，还是便宜的很多。

某司自研同类系统几百名工程师近4年的投入，烧钱亿计，都尚未替换掉Hadoop。

5，其他成本

如系统的安全性，社区版本升级频繁而现实是无法同步进行升级所引入的其他隐形成本。

　三，成熟的生态圈有什么好处

成熟的生态圈代表的未来的发展方向，代表着美好的市场前景，代表着更有钱途的一份工作(好吧，“三个代表”).

看图(引自：Hadoop Ecosystem Map ? myNoSQL）

　　部分系统归类：

部署，配置和监控 Ambari，Whirr

监控管理工具 Hue, karmasphere, eclipse plugin, cacti, ganglia

数据序列化处理与任务调度 Avro, Zookeeper

数据收集 Fuse,Webdav, Chukwa, Flume, Scribe ， Nutch

数据存储 HDFS

类SQL查询数据仓库 Hive

流式数据处理 Pig

并行计算框架 MapReduce， Tez

数据挖掘和机器学习 Mahout

列式存储在线数据库 HBase

元数据中心 HCatalog （可以和Pig，Hive ,MapReduce等结合使用）

工作流控制 Oozie，Cascading

数据导入导出到关系数据库 Sqoop，Flume， Hiho

数据可视化 drilldown，Intellicus

使用到的公司也非常的多

（引自： A New Version of the Hadoop Ecosystem Map）

声明： 此文观点不代表本站立场；转载须要保留原文链接；版权疑问请联系我们。

为什么很多公司的大数据相关业务都基于 Hadoop 方案？

深入Nutch index源代码解析(一)

深入Nutch index源代码解析二)

Google高级数据分析师加盟食品创业公司

大数据初创企业Metanautix获投700万美元

用科学示例描述大数据与数据挖掘的相对绝对关系

新型 Linux Rootkit PUMAKIT 使用先进的隐身技术躲避检测

OpenAI就ChatGPT宕机致歉：部分服务恢复，Sora仍处于瘫痪状态

N-able 收购现有战略合作伙伴 Adlumin

美方指控“与中国有关黑客”入侵多家电信公司网络，外交部驳斥

IDC：英方软件第九次获中国专业灾备软件厂商第一

阿里云盘回应相册陌生照片“乱入”问题：已快速修复，用户影响面较小

Backblaze：如何扩展公司的云存储？

以色列初创企业Datafy在种子轮融资600万美元

Cloudflare宣布R2的主要更新，包括事件通知和GCS支持

IDrive Backup新功能：云对云备份Google数据

60国签署巴黎AI峰会声明，美英缺席

富士通横滨国立大学使用 Fugaku 超级计算机推进台风龙卷风预报

Jülich 购买 D-Wave 量子计算机加强量子研究

Trane 将液体冷却集成到 AI 和 HPC 的热管理中

D-Wave 宣布举办 Qubits 2025 量子计算用户大会

Trendfocus 磁带和归档存储服务 CQ3 '24 季度更新报告

适用于 IBM Spectrum Scale 的联想分布式存储解决方案

CES 2025：威刚/XPG Schowcasing 工业和游戏存储设备

AI推理将驱动AIDC需求提升数据中心行业有望复苏

美光采样 6550 ION PCIe Gen5 高达 61TB 的 E3 数据中心 SSD

中国信通院发布《智能化医疗装备产业蓝皮书（2024年）》

使用 Ardis DDP10EF 和 SupremeRAID SR-1000 for M&E 解锁更高水平的媒体性能

多地点运营的企业，分布式管理与集中式管理哪种更具有网络保护的优势？

数字政府一体化建设白皮书（2024年）

Orico公司联合西部数据推出面向创作者的混合存储产品

科技要闻

IDC 发布《FutureScape 2025 年全球制造业预测 – 亚太地区（不包括日本）影响》报告

60国签署巴黎AI峰会声明，美英缺席

一月手机激活量统计数据出炉：华为领跑，小米崛起，苹果失速！

Nasuni 2024年财报创纪录

慧荣Silicon Motion公布24 财年第四季度财务业绩

为什么很多公司的大数据相关业务都基于 Hadoop 方案？

猜你喜欢

科技要闻