一种新的机器算法，可以自动破译历史上消失已久失的古语言。

2020-10-27 22:09:25

来源
51cto

大多数曾经存在过的语言已经不再被使用。其中有数十种已灭绝语言也已被认为是“未破译”的语言。

麻省理工学院计算机科学与人工智能实验室(Computer Science and Artificial Intelligence Laboratory，CSAIL)的研究人员最近开发出了一种新的计算机算法，可以帮助语言学家自动破译历史上消失已久失的古语言。

官方指出，该系统能够自动破译已消失的语言，且无需对这一语言与其他语言的关系有深入的了解。他们还表明，该系统自身就可以确定语言之间的关系，并可以用它来证实最近的一项表明 Iberian 语言实际上与 Basque 语言无关的学术研究。

kejihao.com

CSAIL 方面称，最近的研究表明，大多数曾经存在过的语言已经不再被使用。其中有数十种已灭绝语言也已被认为是“未破译”的语言。这就意味着，大众对它们的语法(grammar)、词汇(vocabulary)或句法(syntax)都了解不足，也无法理解其文本的意思。

而研究这些“未破译”的语言，除了是出于学术上的好奇心。还在于，不理解语言我们就会错过与讲这些语言的人有关的一整套知识体系。然而不幸的是，大多数灭绝语言的相关记录都非常的少，导致科学家无法使用谷歌翻译之类的机器翻译工具或 AI 算法来对其进行解密。

因此，此次 CSAIL 团队推出这一新算法的最终目的就是，旨在只用几千个单词，就可以破译语言学家几十年来难以理解的失传语言。

本次研究由 MIT 教授 Regina Barzilay 牵头，依赖于基于历史语言学(historical linguistics)见解的几项原则。例如，语言通常仅以某些可预测的方式发展。具体表现为：一种给定的语言很少会直接添加或删除整个音节，但是很可能会发生某些近似发音的替换。像母语中带有“p”发音的单词就可能会在其后代演变中变为“b”，但是由于明显的发音差异，变为“k”的可能性则较小。

通过整合这些原则和其他语言学约束，Barzilay 和 MIT 博士生 Jiaming Luo 开发了一种解密算法，该算法可以处理可能的转换的巨大空间以及输入中引导信号的稀缺性。该算法学习将语言声音嵌入多维空间，在该多维空间中，相应矢量之间的距离反映了不同发音的差异。这种设计使他们能够捕获语言变化的相关模式，并将其表达为计算约束(computational constraints)。生成的模型可以将古代语言中的单词进行细分，并将其映射到相关语言中的对应单词。

该项目建立在 Barzilay 和 Luo 去年写的一篇论文的基础上，这篇论文解密了已灭绝的 Ugaritic 和 Linear B 语言，后者以前需要数十年的时间才能被人类解码。但是，两个项目之间的主要区别在于，该团队此前就已经知道这些语言分别与希伯来语和希腊语的早期形式有关。

新算法可以推断语言之间的关系，这是语言解密中的最大挑战之一。该算法可以评估两种语言之间的相似度，当对已知语言进行测试时，它甚至可以准确地识别出该语言属于哪个语系(language families)。不仅如此，算法生成的模型可以将古语言中的单词进行细分，并将其一一映射到“相关”语言中的对应单词上去。

在未来的工作中，该团队希望扩展到将文本与已知语言的相关单词相关联的范围之外，这种方法被称为“基于同源的破译方法”。其表示，“例如，我们可以识别文本中涉及到的所有人或地点的信息，然后可以根据已知的历史证据对其进行进一步的调查。这些实体识别(entity recognition)方法如今已广泛用于各种文本处理应用程序中，并且具有很高的准确性。但是关键的研究问题在于，在没有任何古代语言训练数据的情况下，这项任务是否可行? ”

本文转自OSCHINA。

本文标题：MIT 推出机器翻译新算法，破译已消失的古语言

本文地址：https://www.oschina.net/news/119481/mit-translating-lost-languages-machine-learning

声明： 此文观点不代表本站立场；转载须要保留原文链接；版权疑问请联系我们。

一种新的机器算法，可以自动破译历史上消失已久失的古语言。

打工不易，摸鱼不行！AI化身监工，上班摸鱼全被记录

智能建筑能源管理系统的趋势、挑战和未来

成本可降40％!亚马逊发布用于神经网络训练的超高效人工智能实例预览

图像识别技术原理及应用分析

人工智能发展需要“以人为本”

N2W 宣布为 Kubernetes 提供下一级别自动备份与恢复功能

Cloudflare 3周2宕，宕机事件暴露了人工智能和支付依赖的风险

嵌入式安全：嵌入式系统制造商如何通过安全启动密钥管理加强保护

X平台发布全新“Chat”功能，新增端到端加密与视频通话

PostgreSQL 数据库开源接口 pgAdmin4 中发现严重的远程代码执行（RCE）漏洞

Wasabi 推出隐蔽复制功能，提升云存储安全，防勒索软件

HostColor 在迈阿密数据中心推出新的 AI 兼容云和裸机服务器

Inveniam 收购 Storj 为去中心化数据基础设施的未来提供动力

Smash 专为创意社区设计的新服务取代传统文件传输

ASI Solutions 推出 InfiniStor 云存储平台

我国科学家在量子体系中实现突破商业化落地迎关键拐点

江门中微子实验精度提高1.5~1.8倍

2030 年比特币会被量子计算机攻破吗？

NODKA IPC-615H5-Q670利用英特尔的处理和工具集提高性能

LDRA 宣布其 LDRA 工具套件现在支持对多核架构上的时序耦合干扰的增强分析

谷轮赋能中国绿色数据中心建设，打造面向未来的制冷解决方案

美光战略调整，彻底退出消费级内存市场，2026年起停售DDR内存和SSD

电源和冷却限制是未来三到五年人工智能数据中心增长的重大障碍

慧荣科技宣布推出SM8388，业界领先的高能效PCIe Gen5企业SSD主控芯片

Supercomputing 2025：西部数据将展示创新的下一代AI存储

天硕工业级宽温存储方案：智能SLC模式助力关键领域国产化替代

为AI时代打造的 Pure Storage平台，让数据更智能、更快、更安全、更有趣

和硕通过先进的 OCP 解决方案为数据中心的未来提供动力

江苏:县级以下禁止开发政务服务APP

瑞金医院联合华为开源RuiPath病理模型，加速行业智能化落地

科技要闻

Microchip推出数字功率监测器，实现便携式设备测量功耗减半

全球半导体设备市场统计报告：出货量330亿美元，中国占额最大

CISP认证全面介绍，CISP报名条件及培训课程介绍

芯展速“臻·6”发布会圆满礼成国内首发Gen6路标加速「多模态」真正落地

谷轮赋能中国绿色数据中心建设，打造面向未来的制冷解决方案

一种新的机器算法，可以自动破译历史上消失已久失的古语言。

猜你喜欢

科技要闻