手机号
验证码
立即登录    忘记密码? 注册
手机号
邮箱
立即登录    免费注册 找回密码

2018/9/17 9:46:00

机器翻译研究人员热衷于什么样的内容?

康奈尔大学的研究论文自动化在线发布系统Arxiv.org是任何有兴趣了解神经机器翻译(NMT)最新进展的人士的丰富资源。从我们第一次写到关于提交给Arxiv的论文数量反映出来的学术NMT研究的急剧加速已经差不多一年了,而且这种上升趋势还在继续

 

因此,在过去的105天中,直到上周中旬,有46篇关于NMT的研究论文被提交给Arxiv。难怪我们几乎每隔一天就碰到一起 - 实际上每隔2.3天就会有一篇关于NMT的新文章。

 

经过仔细检查,基于这些NMT论文的主题,出现了关于研究方向的模式。根据对其内容的粗略阅读对研究论文进行分类后,Slator决定根据意图对其进行分组,而不是结果。毕竟,几乎每个研究方向都会产生相同的最终结果:NMT模型和总体产出的改进。

 

免责声明:Slator并不是学术研究和分类的最终权威,而这些类别旨在显示研究人员正在采取的一般方向。

 

改进NMT输出

 

NMT最明显的下一步也是研究最多的话题。最近在Arxiv上发表的46篇研究论文中有8篇涉及以某种方式改进NMT产出。

 

有一些研究将前人基于短语的MT方法的方面应用到当前的NMT模型中,通过基于语法的权重改变解码器的注意机制在本地的注意力的实验,甚至应用方法来帮助NMT模型处理更有创意的方面翻译如处理成语。

 

事实上,已发表的46篇关于习语翻译的论文有两篇。一个人使用了惯用表达式的直接翻译黑名单来识别测试集中的文字翻译错误。另一种方法在模型的训练数据中添加了惯用表达式,并对它们进行了标注以供识别。

解决培训数据限制

 

NMT模型被描述为数据饥饿,数据质量越高,域内语料越多,系统就会越好。

 

最近发表的46篇研究论文中有7篇研究了训练数据约束,试图找出为什么NMT模型需要特定数据或如何解决现有的已知限制,如低资源语言。

 

已经对仅使用部分对齐的语料库训练NMT模型进行了研究,了解训练数据中合成噪声和自然噪声如何打破NMT输出流畅性,当然也是最具挑战性和迫切性的问题:解决低资源语言的NMT问题。其中一个例子是讨论森林到序列模型的论文,该模型通过向训练数据添加语法信息来提高低资源语言的翻译准确性。另一个侧重于使用外部词汇的外部词典来增强训练数据。

新的或改进的NMT模型

 

递归神经网络,卷积神经网络和自我注意变换器是当今NMT系统使用的深度学习模型的主要类型。这并不意味着研究人员会停止寻找新的或改进的模型。

 

实际上,有七篇研究论文只关注这一点。Salesforce加权的自我注意变压器模型,他们声称将处理速度提高10倍就是这样一种模型。另一个是亚马逊的Sockeye,亚马逊研究团队在去年年底与其他模式对抗。

 

其他研究主要集中在变分递归神经机器翻译和异步双向解码。

文档级上下文

 

NMT注入文档级上下文的研究也是一个热门的方向,有6篇论文集中在这个任务上。

 

由于NMT的流畅度是逐句限制的,因此它不能使用源语句之外的语境来翻译其文本。简而言之,它无法翻译具有相同流利程度和充足性的整个文档,因此不能翻译其中的单个句子。

 

研究人员关注的一些方法包括:

 

    流解码,来自先前翻译的句子的预先存在的上下文的恒定流

 

    外部记忆与NMT模型结合使用

 

    使用缓存来充当翻译历史或作为其他参考点

 

    基于解码历史,对NMT模型的关注机制应用自适应控制

 

后期编辑和模型学习

 

另外6篇研究论文涉及编辑后,在线和离线模型学习以及人的评估。

 

其中一篇论文是FacebookNMT通过非常简单的交互进行后期编辑。还有关于离线记录数据到在线NMT模型和在线机器学习的讨论。

 

此外,还有两篇论文着重于人类评价,尤其是关于“ NMT在线适应用户后编辑的第一次用户研究的论文以及一篇论文一种定量细粒度人工评估方法来比较不同性能MT系统

研究的其他方向

 

除此之外,有五篇论文致力于改进各个方面的NMT解码编码过程。这些通常围绕提高速度或效率,或降低功耗或要求。

 

四篇研究论文涉及了解NMT模型内部工作的各个方面。其他三篇论文涉及各种主题,例如关于隐私的文章,该文章提出了一种方法来保留翻译或分析的句子的含义,而不会泄露有关该主题的任何敏感信息。

 

当然,大多数语言行业从业者不需要在审查个别研究论文的过程中陷入漏洞。他们只是在他们的生产力工具中使用任何公开可用的NMT门户网站或NMT插件,并快速了解该技术的进展情况。但是,仍然值得关注学术界正在发生的事情。毕竟,目前正在重塑行业的技术也开始成为无害的研究论文。

 

为了理解当前研究的方向,我们回顾了2018年前六周以及去年的最后几个月研究库中的NMT相关论文。从2017111日至2018214日,共有58篇相关论文。这些论文中有12篇并非直接关于NMT,而是专注于通过神经网络进行机器学习,或者关注自然语言处理等相邻技术。

 

——选自:乐文翻译

 

乐文翻译目前是国内专业的翻译机构之一,公司秉承“诚信 专业的服务理念,为国内外客户提供一流服务。了解更多信息:请发邮箱:abc@lewene.com或直接致电:400-895-6679咨询。

阅读文章:积分+1