据ORNL报道,人工智能为病理学家和研究人员在改善癌症治疗和诊断的斗争中取得了重大胜利。
美国能源部橡树岭国家实验室(Oak Ridge National Laboratory)和路易斯安那州立大学(Louisiana State University)的研究人员与美国国家癌症研究所(National Cancer Institute,简称NCI)合作,开发了一种长序列AI转换器,能够处理数百万份病理报告,为研究癌症诊断和管理的专家提供更准确的癌症报告信息。
“我们的目标是尝试看看我们是否可以自动从这些病理报告中提取特定癌症部位信息的过程,并将其转化为国家级癌症发病率报告的结构化数据,”ORNL计算科学与工程部的研究科学家Mayanka Chandra Shekar说。
该团队的工作最近发表在《临床癌症信息学》上。
AI Transformer 模型在大量数据上进行训练,并将其“转换”为对科学家有用且易于消化的信息。在橡树岭领导计算峰会超级计算机上使用安全的 CITADEL 框架,在百万兆次级计算项目和使用监控数据和可扩展癌症人工智能建模结果 (MOSSAIC) 计划的支持下,ORNL 的研究人员使用专门的转换器模型处理了 270 万份癌症病理报告。这个模型被称为 Path-BigBird,它从六个监测、流行病学和最终结果或 SEER 癌症登记处提取数据。
NCI 的 SEER 计划是有关美国癌症发病率和生存率的权威信息来源。SEER 目前从覆盖约 48% 的美国人口的基于人群的癌症登记处收集和发布癌症发病率和生存数据。
“我们想建立一个语言模型,我们可以问,'我们能否构建一些能够理解病理学语言的东西,并帮助我们创建预测建模或信息提取模型,这些模型基本上可以从病理学报告中提取癌症部位、子部位和其他关键细节?'”Chandrashekar说。
目前,这些癌症登记处是手动更新的,在癌症发病率和报告之间留下了两年的差距,这意味着如果全国癌症发病率增加,研究人员必须等待两年才能认识到这一关注领域。
通过有效处理来自数百万份病理报告的信息,Path-BigBird 有可能简化病理信息提取的速度和准确性,并超越传统的深度学习方法来收集重要信息,例如识别癌症部位、组织学,并提高人群水平癌症发病率报告的准确性。
Chandrashekar说:“我们目前部署的深度学习模型已经自动编码了癌症登记处处理的约23%的报告,为研究人员节省了宝贵的时间,以寻求近乎实时的癌症报告。她补充说,这一进步为创建一种全面的模型病理学语言打开了大门,该语言可以比以往任何时候都更快地成功执行任务。
“使用这种模式开辟了一个全新的世界,”Chandrashekar说。“我们可以使用相同的模型来提取生物标志物和其他复发性癌症问题,因为现在它能够理解病理学特定的语言。我们可以将其扩展到我们开始的重点之外,“她补充道。
研究的转折点出现在团队意识到需要更广泛的语言范围才能使 AI 模型更准确地运行时。通过将更多的临床语言与病理报告相结合,Chandrashekar 和她的团队在准确性和性能方面都有了显着提高。
“这给了我们一个空间,让我们明白,有限的词汇量可能会限制我们理解某些任务中行为的细微差别,”Chandrashekar说。“同时,包括更多的词汇量将创建一个更好的模型来执行正常任务,以及更难的任务。
人工智能模型中融入的包容性语言反映了为该团队聚集的广泛研究人员,他们花了两年时间研究这个项目。
Chandrashekar 补充道:“我们的团队包括来自自然语言处理专家、高性能计算科学家和流行病学家的人,所以我们是一个完全跨学科的团队,我们必须了解,'被问到什么,我们能否安全地大规模运行它?'”
研究人员已经测试了 Path-BigBird 模型的基本信息提取任务。他们了解了 BERT 和 GPT 等流行模型的 transformer 模型的潜力,他们希望扩展和适应对人口健康有用的下游任务,例如实体识别、基本文本的位置和问答系统。Path-BigBird 模型也可以是
声明: 此文观点不代表本站立场;转载须要保留原文链接;版权疑问请联系我们。