2018/5/21 13:58:00
机器翻译的发展史
乐文濮阳翻译公司分享:
机器翻译达到目前的水平,经过了几十年的发展,并经历了三次飞跃。
早在1954年,人类就开始尝试过让机器能识别人类的语言,但直到上世纪80年代,才有人摸索出方法。当时,IBM做了研究,利用一些规则方法,句法分析,语意分析等传统方法让机器看懂人类语言。但由于当时的人工智能发展处于“凛冬时期”,效果一直不好,翻译质量也一直上不去。
机器翻译的第一个飞跃也是IBM做出的。IBM的研究人员用了统计的方法来做机器翻译。那时,语音识别从传统的人工智能方法专家系统转为统计学习的方法,尤以隐马尔科夫模型为代表。统计学方法的应用让机器翻译在上世纪90年代有了质的飞跃。
进入21世纪,机器翻译迎来了自己的第二次飞跃。这次的进步主要依靠深度学习神经网络的方法。这种方法也称为神经机器翻译(Neural Machine Translation),这个技术先是用到了语音识别中,再推广到图像识别和机器翻译上。
神经机器翻译,简要的说,就是对源语言的句子进行编码,即转化为计算机可以“理解”的形式,编码的结果会形成很多隐含变量,每个隐含变量代表从句首到当前词汇为止的语义信息。然后通过一个解码的过程,一个词、一个词输出译文。
到了2018年,由微软亚洲研究院与雷德蒙研究院研发的机器翻译系统,解决了NMT方法的一些局限,并借鉴了人类翻译过程中的一些方式。例如:对偶学习(Dual
Learning)、推敲网络(Deliberation Networks)、一致性规范(Agreement Regularization)、联合训练(Joint
Training)等,让机器翻译水平得到了大大提升。
从机器翻译的三次飞跃上不难看出,一家公司构建的翻译系统效果如何,主要取决与两点:一是算法是否足够好,二是数据是否够全、够多。
这样看,对于微软、谷歌、百度等大公司来说,他们有足够优秀的人才来搭建神经网络,也有足够多的搜索数据可供自己搭建的网络进行训练。国内的科大讯飞和搜狗公司,由于本身在语音识别上有较长时间的积累,自然语言资料库上有优势。