2018/8/6 15:11:00
鹤壁翻译公司如何评价Google神经机器翻译(GNMT)系统?
鹤壁翻译公司如何评价Google神经机器翻译(GNMT)系统?
翻译有纯人工翻译,还有借助电脑的机器辅助翻译(CAT,computer assisted/aided translation),还有传统的机器翻译(MT,machine translation)。
传统的机器翻译据说源于上世纪五六十年代的美国,为了破解苏联的大量俄语文件而研制。它的原理是词汇间的一一对应,可以想见,产出的译文肯定是不通的,或许只能大体看出原文在探讨的主题。这样的翻译模式或者思路,在翻译天气预报这种语汇固定的文本上有一定用处。据说加拿大魁北克地区曾用这种方式播报双语天气预报。
机器辅助翻译是指利用Trados或者wordfast这种工具,它的核心原理在于translation memory,即翻译记忆语料库。软件工具把之前翻译过的或者集中导入的双语语料储存起来,遇到相似程度高的原文时,自动调出之前的译文,译者在其基础上修改,完成最终的译文。其翻译单位为句子。
以上介绍的基于语汇一一对应的机器翻译和基于翻译记忆数据库的CAT,其实代表了实现人工智能的两个思路。我自己只是搞翻译的,对于人工智能不太懂,但机器/电脑翻译属于人工智能的范畴。人工智能的关键在于教会机器你想让它认知的东西,对于如何教,有两个思路。
举一个我在TED演讲中听过的一个例子。
演讲者从事的是图像识别软件的开发。一开始采取的套路是通过描述画面来教会机器识别事物。比如给“猫”设置“圆脸、尖耳朵、长尾巴”等参数,但是效果很差,机器识别了站立着的猫,就识别不了坐着的猫。
后来研发者换了一个思路,模拟人类孩童是如何认识猫的——见的多了,就知道这样的是猫了(孩子并不会去分析原来圆脸、尖耳朵、长尾巴的才是猫)。于是将大量猫咪的图片存入机器,并告诉它这是“猫”,后来机器遇到类似的图片,就能识别出是猫。已有数据库越大,机器识别得就越准确。
个人认为质量较高的机器/电脑翻译的实现,也要采取这后一种思路,即基于大量双语语料的记忆和学习——让机器记住什么样的话是什么意思,而不是将语句分解为单个词汇再去找它们在另一个语言中的对应。
根源还是语言的复杂性,无论是哪两种语言之间,都不像二进制和十进制之间那样可以实现一一对应,所以第一种思路的发展前途已经很局限。而第二个思路或许就是以后的方向,互联网实现的大量语料共享也为它的发展提供了可能。
------------------------------------
关于如何看待机器/线上翻译的进步:
虽然我自己是个翻译匠,而且厌恶把线上翻译随便改改交差的译员,但是对机器/电脑/线上翻译本身心存亲切——它毕竟不是人,不要笑话它。
它对于译者也有用处,对于某些语汇(不是整句整段),它给的译文由于基于大量现有语料,往往确实是业内人士用的比较多的说法。
所以大家不要看到机器翻译产生可笑译文就拿来调侃,该被调侃的是那些敢用这些译文的人。
而且,没有必要恐慌自己会被取代(前提是你的水平远高于机器);机器差的还比较远——如果你知道语言可以美到、精到、妙到什么程度,如果你明白很多时候它就是人的灵光一现的、独一无二的、偶然的产物,就不会怀疑这一点。