2018/4/25 15:28:00
机器翻译基于大数据的互联网翻译成为突破口
近些年来,随着互联网以及大数据的迅猛发展,基于大数据的互联网翻译成为了机器翻译技术实用化的突破口。王海峰说:“组建研发团队后,我们从整个互联网上挖掘翻译资源,在此基础上使用云计算平台训练统计翻译模型、深度学习模型,最终让机器翻译真正达到实用水平,也实现了机器翻译领域很多研究者们的毕生夙愿。”
王海峰介绍,互联网大数据给机器翻译带来了机遇,语言资源数据量激增,使得海量翻译知识的自动获取和实时更新成为可能。但同时,互联网大数据也带来了新的挑战:比如互联网语言数据噪声大,语言歧义现象多,小语种双语资源数据稀缺等。他们的项目团队遭遇了不少难题,比如2010年初,通过数据分析,他们的研究团队发现,互联网数据虽大,里面却存在着大量的低质语料,比如“好好学习、天天向上”在抓取回来的语料中大多数都被翻为了“good good study,day day up”。
面对如此令人啼笑皆非的语料,项目团队反复研究改进,最终将传统文本处理技术与互联网技术完美结合。国家科技奖的项目评审专家认为,该获奖项目突破了机器翻译领域内的四大世界级技术难题:“提出基于大数据的互联网机器翻译模型,快速响应高负荷翻译需求;基于大数据的翻译知识获取,克服语言数据噪声问题;通过深度语义分析和翻译技术,解决语言语义歧义问题;提出枢轴语言机器翻译技术,实现了稀缺语种的多语言翻译。”
乐文翻译公司的南阳翻译分部也在不断完善自己的技术,从语法、专业性上有了突飞猛进的提高,有翻译服务相关的需求,可以随时与我公司联系,客服热线:400-895-6679