华为陈圣权:数据是机器翻译发展的关键因素

Issuing time:2018-09-21 15:37Source:ChinaIT.comLink:https://mp.weixin.qq.com/s/hjg7bsJOqfxWbIh36bcEhQ

微信图片_20180921144131.jpg

在《圣经》中,人类联合起来兴建希望能通往天堂的高塔;为了阻止人类的计划,上帝让人类说不同的语言,使人类相互之间不能沟通,巴别塔计划因此而终结,而巴别塔也成为语言障碍的一个代名词。

而借助实现高效率、高质量的机器翻译,我们却有可能打破语言障碍,实现跨越语言的无障碍交流。近日,ChinaIT.com独家专访了中国翻译协会副会长、华为翻译中心前主任陈圣权,他对于机器翻译行业的发展、应用前景等方面提出了许多独到的见解。

人工智能技术推动机器翻译快速发展

作为计算语言学的一个分支,机器翻译的发展依赖于人工智能技术的演进,特别是神经网络等技术的出现,让机器翻译技术得到了突飞猛进的提升。陈圣权认为,机器翻译的进步首先体现在效率方面,依托于强大的运算能力,机器翻译速度远超过人工翻译,可以做到“立等可取”;其次,机器翻译越来越没有“翻译腔”了,满足了基本的可读性和可用性的需求,让人类可以摆脱简单、机械的翻译工作,投入到真正有创造性的翻译工作上。

微信图片_20180921144137.jpg

“跨国公司的内部交流、专业说明书翻译、代码注释等场景是机器翻译在企业内部常见的几个应用场景,其不仅在速度上远远超过了人工翻译,而且准确率也达到了很高的水平。以华为为例,机器翻译目前已经帮助华为大大加快了翻译的交付速度,节约了30%的人力资源成本,还挖掘了不少翻译需求。目前,注册华为机器翻译系统的用户达到9万多人,每天翻译的交付量达到5000万-1亿字符数。”陈圣权表示。

“作为人工智能的典型应用场景之一,机器翻译现在已经相对较为成熟,在特定场景下,机器翻译甚至能够比人工翻译的效果更好,”陈圣权表示,“随着人工智能技术的进步,机器翻译将会应用在更多场景中”。

微信图片_20180921144140.jpg

数据成为机器翻译的核心要素之一

机器翻译技术与应用近年之所以得到了突飞猛进的进展,与人工智能的广泛应用是分不开的,正是因为人工智能技术的发展,使得机器可以摆脱传统的翻译模式,从而“读懂”不同的语言。“与人工智能发展的要素相似,目前机器翻译发展的要素也可以归结为以下几点:强大的计算能力、先进的算法模型、以及丰富的数据。”

其中,陈圣权特别提到了数据的重要性,他认为,在现阶段的机器翻译应用实践中,计算能力并不是显著的瓶颈,而且开源社区也提供了大量先进、且仍在不断进化的机器翻译算法模型,这让机器翻译的技术门槛大幅降低。相比较之下,数据的重要性更加凸显,数据量的大小和精准程度往往决定了机器翻译引擎的效果,谷歌在机器翻译领域下过一个论断:数据集规模每翻一倍,它自动评价的指标就能够提升0.5个百分点。

微信图片_20180921144143.jpg

特别是在行业化场景的机器翻译需求中,数据的掣肘就显得明显。面向公众的机器翻译系统尚可以依赖互联网上的公开数据,满足部分日常场景的翻译需求,但是一旦涉及到专业领域或是企业内部的翻译需求,这些数据就远远不够了。

“由于数据保护、个人隐私、合规性等方面的考虑,很少有企业会向机器翻译应用开放自己的数据,这一问题在很长时间内都将难以得到解决,如果得不到这些数据的支撑,机器翻译的质量将会受到很大影响。华为的机器翻译实践也表明,在内部文档翻译方面,自有平台在翻译质量方面显著超过谷歌等机器翻译平台”,陈圣权表示,“因此,在行业应用方面,由通用型的机器翻译平台+企业自有训练数据+定制化能力组成的机器翻译解决方案,将会成为现阶段企业拥抱机器翻译的优先选择。”

机器翻译的未来可期

虽然机器翻译的应用目前仍局限于特定场景中,但是机器翻译的发展速度让我们对于未来抱有非常乐观的态度。特别是在神经网络取代统计学派成为翻译领域的主流研究方法之后,机器翻译的单词错误率、词汇错误和语法错误率都大幅降低,超过了过去几十年所取得的成绩。可以预见,随着神经网络等技术的继续提升,机器翻译的准确率还将进一步提升。

就像陈圣权所说,“除了文学、艺术等比较优美,需要发挥人类创造力、融合人类情感的翻译需求之外,机器翻译将进一步替代人类翻译,满足不同语言的沟通需求。”

微信图片_20180921144146.jpg