大数据对于商务人士来说是让人兴奋的产物,许多的大数据杀手级应用将不断出现。对于存储管理员来说,存储基础设施将不断增长,这是毫无疑问的。你一直都在所有客户中收集终端用户每毫秒的行为数据,想象一下如果你可以立即查看所有数据,不需要考虑数据监管、数据管理、数据保护和其它所有相关的烦恼,你需要做的只是把你所有的数据放到一个相对廉价又具备扩展性的Hadoop存储中,这是多么令人期待的事!
大数据湖能够满足不断增长的数据需求,并为你的业务提供有价值的服务。通过将不同来源的数据集采集到一个集中平台,使用容易扩展的大数据方法提供多租户的分析服务,还会创造许多新的数据挖掘机遇。数据湖的总潜力值随着可用于分析的数据量增加。一个大数据和大数据湖的关键原则是你不需要提前建立主数据模型,非线性增长是不会出现的。
企业数据湖或hub的概念最初是由Cloudera和Hortonworks这样的大数据厂商提出的,表面上看,数据都是承载在基于可向外扩展的HDFS廉价存储硬件之上的。但你的数据量越大,你越可能需要各种不同种类的存储。最终,所有的企业数据都可以被认为是大数据,但并不是所有的企业数据都是适合存放在廉价的HDFS集群之上的。
所以,今天传统的存储厂商正在分析大数据湖的前景。从存储市场的角度来看,数据湖就像另一个云计算一样。“所有人都需要一个数据湖,你怎么能够没有一个(甚至两个、三个)?”但企业使用存储有多种选择,可以采用支持HDFS和Hadoop虚拟化的企业级存储,这种存储可以将其它存储协议转换成HDFS。也可以采用可扩展的软件定义存储。
大量,快速,现在
数据湖的一部分价值是把不同种类的数据汇聚到一起,另一部分价值是不需要预定义的模型就能进行数据分析。现在的大数据架构是可扩展的,并且可以为用户提供越来越多的实时分析。在商业智能(BI)和数据仓库还没有被淘汰的今天,大数据分析和大数据湖正在向更多类型的实时智能服务发展,这些实时的智能服务可以支持实时的决策制定。Hadoop和它的生态系统已经度过了它们的理论研究阶段,它们已经可以为实际的应用需求服务了。数据管理和数据分析的应用程序已经开发得非常友好,高级的向外扩展机器学习技术也已经投入应用并嵌入至只需要用鼠标就能简单操作的大数据挖掘软件中。然而,IT仍然需要对数据湖里的所有数据负责,所以在这里我们列举了几个企业数据湖的几个关键特点:
保存一份集中的数据索引(或元数据),包括数据源、版本、精细度和准确度。如果在这方面没有自动化的支持,一个数据湖会很快被冲垮。
声明: 此文观点不代表本站立场;转载须要保留原文链接;版权疑问请联系我们。