对大数据的分析处、处理,是将数据从低价值密度体中炼到高价值密度体的过程,被现代商业誉为“炼金术”。这也是数据资源转化为数据资产的过程,然而由于数据规模庞大、数据类型众多,使得数据价值的实现仍然存在很高的技术门槛,企业用户也日益被大数据生态的复杂性所困。
企业“海量数据”之困
企业在拥有了海量非结构化数据之后,要将这些数据同实际业务、商业目的和运营目标相结合,对多样性数据进行融合分析处理成为必然,这使得数据分析和加工部门需投入大量的人力物力进行数据分析、处理、加工和学习,以得到有价值的结果输出。
虽然数据分析本身是与行业和业务相关,但非结构化数据的分析计算模式是共通的。随着技术发展,传统批量计算、高性能计算、大数据分析、人工智能(分布式机器学习/深度学习)等数据并行处理、分析方法相继诞生,以满足各行业数据分析需求。
在实际应用中,企业各部门将以不同的计算模式,来构建所需的系统和计算集群,但这种割裂的计算集群却造成了重复建设和资源浪费。而随着业务的推进,同一批数据在不同处理阶段所需的分析方法不同,计算分析基础架构还需要掌握复杂的技术栈,以及数据分析前期的服务部署能力。
另外,由于计算模式多样化带来的资源壁垒,企业还需要投入巨大的成本;数据计算系统建立后,数据分析人员如果没有能力设计高度并行和健壮的数据分析流程,需要经过漫长等待才能够获得结果。
降低海量非结构化数据使用门槛 助力企业数据“加速跑”
为了帮助企业用户解决数据分析门槛高、效率低的问题,极道潜心打造了Achelous统一计算系统。这是一款融合多种计算于同一套物理集群、支持EB级海量数据分析、处理、训练的系统,并且Achelous有能力跟不同特征的存储系统配合,做到计算与存储应用感知,轻松构建复杂数据流的智能融合计算平台,降低企业IT建设投入
Achelous统一计算系统以统一的数据处理引擎更高效地挖掘数据价值,以智能化的方式驱动整个数据处理闭环,计算效率与资源利用的大幅提升,为开发者、企业、以及政府的数字化、智能化升级打下坚实基础。
降低构建业务数据分析流程难度
Achelous 是极道提供的调度复杂工作流或数据流的调度器和执行引擎。为了降低业务专家利用现有的算法和模型进行并行编程的难度,Achelous统一计算系统提供执行引擎以及多种表达方式,进行数据流业务的组合编程。
业务专家只需描述所要分析业务的分析阶段,以及数据依赖关系,系统将自动构建负载的批量处理有向图,并生成机器代码调度执行。例如,应用领域专用语言(BSL、WDL)编写工作流(Pipeline),业务专家可以动态构建自己的大数据或者人工智能应用,按照数据依赖进行计算。实现完整的数据采集、数据清洗、数据挖掘和机器学习建模等业务流程,极大地简化了业务专家的数据处理流程,并大幅提高工作效率。
自动构建跨应用计算框架工作流
基于Achelous统一计算系统,用户面对设计复杂跨框架的数据流,需要高并发或高通量计算时,只需要制定计算框架和预计分配的资源,计算框架会在计算过程中自动构建,计算完成后,计算框架会自动销毁,资源重新释放并共享给其他计算和数据处理应用。创建集群的过程对用户完全透明,无需人工干预和配置,高效完成。
另外,极道提供的可视化界面,方便用户以拖拽的方式生成数据流和工作流,这一设计可以免去WDL或BSL程序编写,帮助研究人员摆脱IT技术的束缚,将更多精力投入业务研发。
用事实见证数据流构建能力
在某肿瘤检测机构,通过部署极道Achelous统一计算系统,其计算资源扩充近2倍,样本交付能力提升了6倍,满足其对海量生物数据处理、分析和建模的多样化需求,助力打通肿瘤临床检测全流程。
在BioFlow计算引擎的协助下,该机构一个作业的特殊阶段,被轻松分解为数千路并行,每天有超过几万个任务运行在高度并行的计算集群里。
在零专业IT人员情况下,该机构运行维护着一个复杂的数十节点HPC/Spark混杂计算集群,以及一个大规模分布式存储系统。
利用强大的BioFlow WDL/BSL语言引擎和BioFlow执行引擎, 几名生物信息分析工程师在短短的4个月内,用近千个工具开发出了数百个复杂的分析流程。
高效的执行引擎简化了分析流程开发,让业务流程变得更敏捷、更灵活、更可控和自动化。
在未来数字经济浪潮中,降低计算成本、缩短任务周期、提高分析效率,是企业大数据点石成金的基础。极道作为数据系统领域的生力军,始终以用户需求为导向,以技术创新为驱动,实现提高计算并行程度和提高资源利用率这一目标,进一步降低用户的整体拥有成本,助力企业释放更多数据价值。
声明: 此文观点不代表本站立场;转载须要保留原文链接;版权疑问请联系我们。