手机号
验证码
立即登录    忘记密码? 注册
手机号
邮箱
立即登录    免费注册 找回密码

2018/9/14 13:45:00

机器翻译质量的评估体系

运行基于人员的质量得分是一项重大任务,即使只有一家NMT供应商也是如此。它需要多达4000名审阅者处理数千个项目。

 

这个过程与每个NMT供应商都有关,他们想知道他们系统的真实价值,并获得真实的人类对其翻译产生的反馈。

 

当然,主要的挑战在于发现,测试,筛选,培训和监控数千名来自不同国家和语言的评论员 - 在他们同时处理数万个项目的同时监控他们的工作。

 

更好的行业级质量得分

 

考虑更大的好处,真正需要的是行业使用的标准化NMT质量分数,使用相同的基准,字符串和评审员测量所有各种系统,以便比较类似的性能。由于NMT系统的性能在不同类型的材料和语言之间可能会有很大差异,所以使用同一组语言学家和相同的源材料进行真正的基于人的比较是产生真实比较结果的唯一方法。对于单个NMT供应商或用户,以及最终用户或LSP试图决定使用哪个引擎,这样的分数都是有用的。

 

在行业相关的层面上进行相同的测试是一项更大的任务。使用10个NMT引擎,10种类型的材料,10个语言对和40个审阅者,项目参数可概括如下:

 

     假设评估前10个语言对,即EN> ES,FR,DE,PT-BR,AR,RU,CN,JP,IT和KR;

 

     10种类型的材料 - 一般,法律,市场营销,金融,游戏,软件,医疗,技术,科学和旅游;

 

     谷歌,微软(Bing),亚马逊,DeepL,Systran,百度,Promt,IBM Watson,Globalese和Yandex等10个领先的(基于网络的)引擎;

 

     40名评论者对每个项目进行评分

 

     每个测试30个字符串;和

 

     每个字符串平均12个字

 

这涉及总计40,000个单独的测试(10个语言对×10种材料×10个NMT引擎×40个评论者),每个测试都至少有30个字符串,即1,200,000个字符串,每个12个字,导致约1440万话。需要进行此评估才能创建一个真实的,比较性的,基于人的NMT质量指标的实例(!)。

 

挑战是显而易见的:为了只产生一个真实可行且有用的NMT分数的实例,4000名语言学家需要评估1,200,000个字符串,等同于超过1400万字!

 

该项目的规模,参与人数以及招聘,培训和监督所有审核人员的要求,以及确保他们正确地做好工作,这些工作显然是艰巨的任务,即使是大型NMT玩家,当然还有传统的翻译公司。

 

在合理的时间内(例如少于一天)完成整个过程,以便结果“新鲜”并且相关更加困难。

 

有很多翻译机构没有能力,技术和运营能力来定期开展这么大规模的项目。

 

这就是One Hour Translation(OHT)所擅长的。我们用超过50种语言招募,培训和测试了数千名语言专家,并且已经为我们的客户运行了超过1,000,000个NMT评级和测试项目。到2018年4月底,我们将发布首个以人为本的NMT质量指数(最初涵盖多个引擎和领域,后来扩大),目标是促进整个行业使用NMT。

 

OHT是NMT开拓者,也是为数不多的需要部署“混合”模式的翻译机构之一,将NMT和人员后期编辑相结合,以减少提供高质量商业翻译所需的成本和时间。传统人类翻译领域的革命已经发生,创建NMT指数是OHT展示我们对NMT现象的承诺和体验的方式。

 

关于未来的一句话

 

未来,可以使用相同技术构建更好的NMT质量指数NMT,即深度学习神经网络。构建神经质量系统就像构建NMT系统一样。所需的成分是高质量的翻译,高容量和质量评价/反馈。

 

有了这些成分,就有可能建立一个深度学习,基于神经网络的质量控制系统,该系统将读取翻译并像人一样对其进行评分。一旦NMT系统工作顺利,开发出可靠的,基于人的质量评分/反馈,下一步就是创建一个神经质量评分。

 

一旦获得了神经质量评分,就有可能让引擎相互改进,并通过将神经质量评分与NMT联系起来创建一个自学习和自我完善的翻译系统(显然,它没有任何意义一个闭环系统,因为如果没有额外的外部数据它就无法改进)。 

 

——选自:乐文翻译

 

乐文翻译目前是国内专业的翻译机构之一,公司秉承“诚信 专业”的服务理念,为国内外客户提供一流服务。了解更多信息:请发邮箱:abc@lewene.com或直接致电:400-895-6679咨询。

阅读文章:积分+1