HDFS本身并没问题,但在与Hadoop集成之后则要求用户必须为其构建专用计算机集群。
虽然我们对HDFS并不过分抵触,但大部分使用高性能计算集群处理特殊事务的客户往往对它不太热衷。究其原因,用户需要为HDFS本身投入大量计算资源。虽然映射化简功能确实会给任务执行带来一些便利,不过这部分资源根本无法直接作用于Hadoop运行。
英特尔注意到了这一弊端,并在上周悄悄发布的自家Hadoop发行版2.5版本中加入了对Lustre的支持能力。
英特尔公司大数据与软件服务部门总经理Girish Juneja认为,芯片巨头的高性能计算客户们会对新方案赞不绝口。而英特尔在发行版中全面推广开源规则的决定也不会让其他客户受到影响。
“很多客户之所以不希望部署一套完整独立的物理集群,主要是因为弄不清楚该如何在自己的文件系统中运行Hadoop,”Juneja在越南胡志明市举行的英特尔大数据与云峰会上指出。“高性能计算正是最新决策最直接的受益者。在高性能计算领域,很多用户都在使用GPFS或者Lustre,我们也很高兴能在自己的业务中引入Lustre。”
“我们以抽象化形式构建HDFS层,但在本质上它仍然属于Lustre。”
“因此,我们不妨一起关注Los Alamos实验室等研究环境的使用情况。在现有集群设施中,设备有九成以上的时间都在运行高性能计算任务,但对于剩下的一成使用时间来说,技术人员可以用来运行Hadoop任务——整个过程不涉及任何数据迁移而且完全在同一套环境内实现。”
鉴于这类实验室往往需要处理大量数据,这种保持数据不动的方案肯定会大受欢迎。
芯片巨头还对HBase的加密及控制列表访问表现出关注。
“在NoSQL环境下,技术人员面临的最大挑战在于如何指定哪些用户有权访问哪些数据,”Juneja表示。“我们提供额外功能用于实现控制列表访问”,这将使得管理员在Hbase当中设定数据访问权限政策。
除此之外,Juneja认为加密与数据匿名化机制的引入可以促使那些过去对合规性负担感到忧心的金融服务供应商及用户考虑投入Hadoop怀抱。Juneja指出,过去缺乏这类安全类功能意味着Hadoop可能导致无法接受的风险。
英特尔公司还销售用于推动访问控制列表的自家管理软件。在Juneja看来,这并不会招致客户反感。
芯片巨头的Hadoop发行版3.0将很快与用户见面,根据目前的情况看应该会在九月份正式发布。Juneja表示,用户可以期待英特尔最终带来一款在凝聚力方面可与Hadoop社区比肩的出色发行版。
声明: 此文观点不代表本站立场;转载须要保留原文链接;版权疑问请联系我们。