必读！大数据：Hadoop，业务分析及更多（1）_Hadoop

翻译：Cady Wang（王楠楠）

　　你想了解大数据，却对生涩的术语毫不知情？你想了解大数据的市场和应用，却又没有好的案例和解说？别担心，这本来自Wikibon社区的小书想要帮你。

　　是的，这是一本小书而不是一篇文章，因为它详实细致的让你从一个完全不了解大数据技术及相关应用的门外汉，变成一个熟知其概念和意义的“内行人”，所以它很棒！

　　译者Cady王楠楠花费了很多心血翻译这本小书，不足之处也请朋友们多指正。我们分成数篇连载。

　　　　　　　　　　　　　　　　——世界大数据观察，宋星

主要内容

· 1来自Wikibon社区的大数据宣言
· 2数据处理与分析：传统方式
· 3大数据性质的变化
· 4大数据处理和分析的新方法
- 4.1 Hadoop
- 4.2 NoSQL
- 4.3大规模并行分析数据库
- · 5大数据方法的互补
- · 6大数据供应商发展状况
- · 7大数据：实际使用案例
- · 8大数据技能差距
- · 9 大数据：企业和供应商的下一步动作
  来自Wikibon社区的大数据宣言
  　　为公司提供有效的业务分析工具和技术是首席信息官的首要任务。有效的业务分析（从基本报告到高级的数据挖掘和预测分析）使得数据分析人员和业务人员都可以从数据中获得见解，当这些见解转化为行动，会给公司带来更高的效率和盈利能力。
  
  　　所有业务分析都是基于数据的。传统意义上，这意味着企业自己创建和存储的结构化数据，如CRM系统中的客户数据，ERP系统中的运营数据，以及会计数据库中的财务数据。得益于社交媒体和网络服务（如Facebook，Twitter），数据传感器以及网络设备，机器和人类产生的网上交易，以及其他来源的非结构化和半结构化的数据的普及，企业现有数据的体积和类型以及为追求最大商业价值而产生的近实时分析的需求正在迅速增加。我们称这些为大数据。
  
  　　传统的数据管理和业务分析工具及技术都面临大数据的压力，与此同时帮助企业获得来自大数据分析见解的新方法不断涌现。这些新方法采取一种完全不同于传统工具和技术的方式进行数据处理、分析和应用。这些新方法包括开源框架Hadoop，NoSQL数据库（如Cassandra和Accumulo）以及大规模并行分析数据库（如EMC的Greenplum，惠普的Vertica 和Teradata ASTER Data）。这意味着，企业也需要从技术和文化两个角度重新思考他们对待业务分析的方式。
  
  　　对于大多数企业而言，这种转变并不容易，但对于接受转变并将大数据作为业务分析实践基石的企业来说，他们会拥有远远超过胆小对手的显著竞争优势。大数据助力复杂的业务分析可能为企业带来前所未有的关于客户行为以及动荡的市场环境的深入洞察，使得他们能够更快速的做出数据驱动业务的决策，从而比竞争对手更有效率。
  
  从存储及支持大数据处理的服务器端技术到为终端用户带来鲜活的新见解的前端数据可视化工具，大数据的出现也为硬件、软件和服务供应商提供了显著的机会。这些帮助企业过渡到大数据实践者的供应商，无论是提供增加商业价值的大数据用例，还是发展让大数据变为现实的技术和服务，都将得到茁壮成长。
  
  　　大数据是所有行业新的权威的竞争优势。认为大数据是昙花一现的企业和技术供应商很快就会发现自己需要很辛苦才能跟上那些提前思考的竞争对手的步伐。在我们看来，他们是非常危险的。对于那些理解并拥抱大数据现实的企业，新创新，高灵活性，以及高盈利能力的可能性几乎是无止境的。
  
  数据处理和分析：传统方式
  　　传统上，为了特定分析目的进行的数据处理都是基于相当静态的蓝图。通过常规的业务流程，企业通过CRM、ERP和财务系统等应用程序，创建基于稳定数据模型的结构化数据。数据集成工具用于从企业应用程序和事务型数据库中提取、转换和加载数据到一个临时区域，在这个临时区域进行数据质量检查和数据标准化，数据最终被模式化到整齐的行和表。这种模型化和清洗过的数据被加载到企业级数据仓库。这个过程会周期性发生，如每天或每周，有时会更频繁。
  
  图1 – 传统的数据处理/分析资料来源：Wikibon 2011
  
  　　在传统数据仓库中，数据仓库管理员创建计划，定期计算仓库中的标准化数据，并将产生的报告分配到各业务部门。他们还为管理人员创建仪表板和其他功能有限的可视化工具。
  
  　　同时，业务分析师利用数据分析工具在数据仓库进行高级分析，或者通常情况下，由于数据量的限制，将样本数据导入到本地数据库中。非专业用户通过前端的商业智能工具（SAP的BusinessObjects和IBM的Cognos）对数据仓库进行基础的数据可视化和有限的分析。传统数据仓库的数据量很少超过几TB，因为大容量的数据会占用数据仓库资源并且降低性能。
  大数据性质的变化
  　　Web、移动设备和其他技术的出现导致数据性质的根本性变化。大数据具有重要而独特的特性，这种特性使得它与“传统”企业数据区分开来。不再集中化、高度结构化并且易于管理，与以往任何时候相比，现在的数据都是高度分散的、结构松散（如果存在结构的话）并且体积越来越大。
  
  　　具体来说：
  - · 体积 -通过Web、移动设备、IT基础设施和其他来源产生的企业内部和防火墙外的数据量每年都在成倍增加。
  - · 类型 -数据类型的多样性增加，包括非结构化文本数据以及半结构化数据（如社交媒体数据，基于位置的数据和日志文件数据）。
  - · 速度 -得益于数字化交易、移动计算以及互联网和移动设备的高用户量，新数据被创建的速度以及实时分析的需求正在增加。
    　　广义地说，大数据由多个来源产生，包括：
    - · 社交网络和媒体：目前有超过7亿Facebook用户，2.5亿Twitter用户和1.56亿面向公众开放的博客。Facebook上的每个更新、Tweet和博客上文章的发布及评论都会创建多个新的数据点（包含结构化、半结构化和非结构化的），这些数据点有时被称为“数据废气”。
    - · 移动设备：全球有超过50亿正在使用中的移动电话。每次呼叫、短信和即时消息都被记录为数据。移动设备（尤其是智能手机和平板电脑）让使用社交媒体等应用程序更容易，而社会媒体的使用会产生大量数据。移动设备也收集和传送位置数据。
    - · 网上交易：数十亿的网上购物、股票交易等每天都在发生，包括无数的自动交易。每次交易都产生了大量数据点，这些数据点会被零售商、银行、信用卡、信贷机构和其他机构收集。
    - · 网络设备和传感器：各种类型的电子设备（包括服务器和其他IT硬件、智能电表和温度传感器）都会创建半结构化的日志数据记录每一个动作。
      
      图2 – 传统数据 v.大数据资料来源：Wikibon 2011
      
      　　从时间或成本效益上看，传统的数据仓库等数据管理工具都无法实现大数据的处理和分析工作。也就是说，必须将数据组织成关系表（整齐的行和列数据），传统的企业级数据仓库才可以处理。由于需要的时间和人力成本，对海量的非结构化数据应用这种结构是不切实际的。此外，扩展传统的企业级数据仓库使其适应潜在的PB级数据需要在新的专用硬件上投资巨额资金。而由于数据加载这一个瓶颈，传统数据仓库性能也会受到影响。
      
      　　因此，需要处理和分析大数据的新方法。
      
      未完待续，请见第二部分：必读！大数据：Hadoop，业务分析及更多（2）

必读！大数据：Hadoop，业务分析及更多（1）

XSKY打造Hadoop HDFS高性能客户端，构筑数据湖理想底座

现在谈大数据，Hadoop已经过时？

基于Hadoop和Spark的证券交易数据分析-上海证券交易所黄寅飞

关于Hadoop十个认识误区

数据太大？你该了解Hadoop分布式文件系统

聚焦搜索，数智采购|2021第一届百度爱采购数智大会即将盛大开启

自主创新赋能信息技术产业发展紫晶存储亮相数字中国展会

XSKY统一存储落地首都医科大学宣武医院

大兆科技携智慧医疗存储方案走进中华医院信息网络大会

德赛西威与华为签署全场景智慧出行生态解决方案合作协议