人工智能翻译mRASP:可翻译32种语言

利用计算机把一种自然语言转变成另一种自然语言的过程就是机器翻译。
机器翻译对于信息时代下海量信息的捕获无疑具有重要作用,事实上,人们对于机器翻译的需求也与日俱增。除了专业的出版水平的翻译,机器翻译还包括以了解信息或以交流信息为目的的机器翻译。
多语言翻译是机器翻译需要面临的一大技术现实。其中,一个理想的模型是一个统一的具备多种语言能力的模型,在遇到新的语言时,临时少量学习即可达到很流利的语言水平。
emnlp 2020 最新的多语言翻译新范式 multilingual random aligned substitution pre-training (mrasp)就成功实现了这一理想模型:mrasp通过预训练技术再在具体语种上微调即可达到领先的翻译效果,其在 32 个语种上预训练出的统一模型在 47 个翻译测试集上取得了全面显著地提升。
不同于以往的翻译模式,mrasp树立了翻译的预训练和微调的成功路径。mrasp中的关键思想就是一种新的随机对齐子串技术,它使具有相似意义的单词和短语更接近多种语言的表现空间。研究人员预先训练了32种语言,对联合的mrap模型建立公共数据集。模型就是这样对下游语言对进行微调以获得专门的机器翻译模型。
研究人员在不同环境下对42个翻译方向进行了广泛的实验,包括跨文化的异国语言等。实验结果表明,与传统的mrasp相比,mrasp对训练目标具有显著的性能改进。这也是其第一次验证多个低资源语言对可以用来证明丰富的资源机器翻译,甚至可以提高关于训练前语料库中从未出现过的外来语的翻译质量。
mrasp 主要针对机器翻译任务而设计,它有三个应用优势:
一是打破了资源场景的限制,不论平行双语资源高低都能有所提升。在资源丰富的语言,比如标准英法翻译任务上已经有 4000 万平行语句训练情况下,使用 mrasp 依然能获得显著提升,达到了 44.3 的 bleu 值。
二是打破了语种数量的限制。任何语言的翻译,无论是孟加拉语到古吉拉特语还是印地语到菲利宾语,只要是地球上的语言,mrasp 都可以直接拿来微调,并且效果可期。
三是资源消耗低。相比于上百张卡的“军备竞赛”预训练玩法,mrasp 更平民,仅需要 8 卡训练一周就可以得到。
随着计算机运算能力的提升和多语言信息资源的爆发式增长,机器翻译技术日益精进,未来还将为普通用户提供更加实时便捷的翻译服务。


浅谈通信系统的供电架构
E拆解:三星Galaxy A80日本元器件数量占比超七成
自动驾驶汽车榜单出炉,中国仍排20名,新加坡却位居榜首
选择网关时考虑的主要功能
人造食物的未来到底有多好
人工智能翻译mRASP:可翻译32种语言
input子系统介绍和架构
骁龙810麻烦不断:这7位可取而代之
3D打印提升航空制造效率 霍尼韦尔缩短交付时间
怎么吧手机投屏到电视上
机器视觉有前景吗_如何入门机器视觉
魅族魅蓝X评测:双面玻璃设计+Helio P20 配置性能大解析
达内科技助力高校共建人工智能学院
爱立信为环境保护贡献自己的力量
关于QSFP28封装的优点和产品
8K超高清视频有望成为5G时代第一个实现万亿级规模的市场?
导远与中国移动宣布在智慧交通、高精度定位领域建立合作伙伴关系
开辟智能门禁解决方案的新领域
全球云计算一日千里,华为和阿里继续夜郎自大?
黑客探秘