谷歌神经翻译引擎提高了多少?

更新:2017-01-10    编辑:怜晴    来源:原创投稿    人气:加载中...    字号:|

标签:翻译  提高  谷歌  多少  引擎  神经  百度搜索

美国光阴9月27日,谷歌宣布推出谷歌神经网络机器翻译系统(GNMT),采纳神经网络机器翻译(NMT)技巧大幅提升机器翻译的水平,《麻省理工学院技巧评论》杂志MIT TR 报道称“几乎与仁攀类无异”。

b5d062d9f2d3572c5b5bb4b78813632762d0c325.jpg

结果是让人耳目一新的。翻译界同行Michael Zhang在其微信大众号“译言千金”做了一次谷歌翻译引擎新老版本和人工翻译的比较:下文的“GT1”代表2016年3月份GT机译结果;“GT2”代表2016年10月中旬GT机译结果。

203ddd9.jpg

老版本的谷歌译文是让人你熟识的“机器文”:词是对的,整句需要你在头脑里调剂语序后再理解。新版本的译文和人说话的语序几乎一样,和人工翻译没有大差别。

触手可及的体感变更触动了用户和媒体的心弦:它就是我们通常觉得的那个会说人话的人工智能,科技的气力很颠覆,至少“颠覆了翻译行业”。

谷歌引擎到底进步了多少?谷歌在发表的论文中列举了几个语向的翻译差错下降率。

其中英语到西班牙语下降了87%,,英文到中文下降了58%。

“差错率下降”是怎么回事?我的同事,商鹊网CTO魏勇鹏在接受雷锋网的小编采访时解释了谷歌是如何做的:

比如汉译英。谷歌随机从中文维基百科挑选500个句子,让基于统计的老引擎PBMT、基于神经网络的GNMT和熟练译员各自做一次,译文质量打分从0到6分不等,6分为满分。结果就是老引擎得分3.694,新引擎得分4.263,人工翻译得分4.636。

差错率计算方式为:

337ea06.jpg

勇鹏奉告小编:“一、从3.6提升到4.2,和从4.2提升到4.6,这两个所需要付出的努力程度,后者可能是前者的10倍以上都不止,但Google就简单的线性计算为缩小了60%的差距。二、中英的人工翻译,得到的评分也就只是4.6,比英西的人工翻译要低得多,这点说明用来作为基准的‘人’未必是靠谱的,以它为基准来评估也未必靠谱。”

加拿大国家钻研委员会NRC多语言处理钻研组陈博兴钻研员在他的微信朋友圈发文给了一个评价:

“谷歌所做的事情是将这两年学术界神经网络机器翻译的多种最新技巧做了一个整合集成,利用他们强大的工程能力和计算能力,搭了一个很好的系统。他们最好的单系统比我利用开源训练的系统在同一个数据集上要好了大概3个多BLEU值。【注:BLEU标准是美国商务部下属的国家标准与技巧钻研所NIST举办的一项机器翻译钻研水平评测,其原理是对比机译结果和人译结果的相似度,完全一致得分为100(当然不同的人的翻译很难“完全一致”,所以得分100为理想值)。2008年NIST的英文-中文的机器翻译评测结果,谷歌翻译得分41.42。】3个多BLEU的差距,如果由仁攀来判断,仔细看的话,是能感到到的,但是也就是一个小的进步,谈不上突破什么的。

“对于他们(谷歌发表)的文章,我认为有两个遗憾的地方:1.所采纳的技巧都是之前发表过的,没有全新的技巧(对google的要求自然要高一点,呵呵)。2. 如果我们有那么大的计算和工程能力以及那么多人力可以投入,即使只是整合已有技巧,我认为我们可以做得更好,比如我会加上清华大学刘洋他们首先采纳的最小风险训练法子来进行训练,等等。”

陈老师提到的刘洋在接受媒体采访时淡淡地说:“谷歌做的其实是把目前学术界的一些技巧集成在一起。谷歌本身的数据、运算能力,还有工程师水平都非常高,所以他们通过集成做了一个非常强的系统,这个系统和传统法子相比有对比显著的提高。但媒体的报道有点夸张,并不能说机器翻译已经接近人的水平,或者完全取代人。谷歌这项工作还达不到 ‘颠覆性突破’ 这种程度。”

专业人士的评价和普通用户的体感不完全一致。于是懂行的有心人找出了一些有趣的谷歌翻译案例。加拿大博芬翻译公司的赵杰计划寒假回深圳过年,在网上查询找到一家适宜的酒店,各种条件都不错,但是看到价钱时暧昧了,“The price is quite high”。老赵找到酒店的原版中文介绍,原文是“性价比相当高”,谷歌给的译文把意思给弄反了。

谷歌新翻译引擎在妥帖处理原文译文语序的同时,出现了一些莫名其妙的问题

引擎把“美美”翻成了“美国和美国”,而一个标点或者一个近义词的改变,会让它的译文发生很大的变更,甚者译文会意思迥异。相比之下,采纳统计原理训练的有道翻译则把“我想美美地睡一觉”和“我要美美地睡一觉”给出了同样的英文译文。

“谷歌的新引擎的差错无法追溯。”中科院自动化所的张家俊副钻研员说,多层神经网络的算法模型的计算历程是一个黑盒子,人无法理解和解释程序自动学习的历程。“谷歌的新引擎在语言流利性有大幅度提高,但是在原文忠厚度上没有明显变更。”张家俊说。

通俗化的话来讲,统计型翻译引擎的根基数据是双语对齐的词、短语和句子,数据对齐的精度越高翻译质量也越高。但是数据精度越高,也意味着在实际使用中命中的概率也越低。过去以谷歌的强大计算能力和最多的语言数据,也无法在穷尽各种语境、各种词句上可以再上一个台阶,谷歌的统计型翻译引擎的BLEU值好几年保持在40+的水平而无法明显提高。

神经网络的算法不再依附人对语言的理解(词、短语和句子的对齐译法),在很多语种中把词切分到字母的层级(即Subword),比如词根、后缀等,对原文各个词之间的关系也计算得更加细致。谷歌新翻译引擎的神经网络达到了八层,计算的历程耗损了巨大的计算能力。这有赖于谷歌自己开发专门面向深度学习的TPU处理器,其单位耗电量的性能达到GPU和FPGA的10倍,且不外卖。

“神经机器翻译NMT系统是个好东西,但相对传统统计机器翻译SMT来说,系统部署所需硬件投入至少涨十几倍。举个例子,抛开翻译性能而言,像采纳我们最近组装的

评论列表(网友评论仅供网友表达个人看法,并不表明本站同意其观点或证实其描述)

站点导航

您可能在找这些