谷歌翻译的中国基因
2004年,Google创始人之一Sergey Brin使用市面上的网络服务来翻译韩国粉丝发来的邮件,结果显示:“生鱼片带着它的愿望,用Google搜索绿洋葱!”这样的结果,让Sergey认为Google在这方面可以做的更好。不久前,Google翻译发布了iPhone和Android版本,让用户能够随时使用翻译服务,更加轻松便捷地跨越语言障碍。该手机应用可以识别15种语言的语音输入,朗读或全屏显示23种语言的翻译结果。
对于非拉丁字母语言,例如中文和日文,应用将标注拼音或罗马字读音,便于非母语用户读出。与Google翻译的桌面应用相同,移动翻译也能够翻译58种语言书写的字词和短语。
移动翻译设置了一些常用内容的翻译收藏,即便在没有互联网连接的情况下也可读取,实时翻译则需通过WiFi或移动网络连入Google云端获取结果。这款产品对于很多用户来说非常方便,如果身在国外,不知道某句话用外语该怎么说,只需打开程序,把想说的话念给手机,然后点击“翻译”,手机就可以把译文朗读出来。
基于统计的机器翻译
Google翻译产品在全球只有两个团队,一个是在Google总部,另一个就在中国上海。“Google翻译在上海成立,主要因为当初有两个人喜欢做翻译,其中一个就是尹俊(Google翻译产品研发领导,作者注),他可谓是Google上海翻译团队的创始人。通过美国翻译团队开展合作,上海的翻译队伍越来越大,现在已经达到十几人的规模。目前美国总部的翻译团队主要负责后台的平行语料数据,上海翻译团队负责手机、桌面电脑翻译应用的开发。 Google的创新模式常常是自下而上的,工程师可以在工作中发挥个人兴趣,如果做出成绩,就有可能凝聚逐渐扩大成一个团队。”在陈雍昇看来,上海团队的建立要归功于Google的创新模式。
现今大部分的商业翻译系统都是属于规则法机器翻译,需要做大量词汇与语法的工作。Google翻译则采取基于统计的机器翻译,这是IBM科学家在1993年提出的理念,具有划时代的意义。Google现在支持58种语言的互译,翻译团队的成员们掌握的语言远少于这个数字,这也是统计翻译的魅力所在。统计翻译的具体原理是,先往计算机里输入大量的文字文本,搭建涵盖源语言和目标语言的平行语料库,构建统计翻译模型。这些模型可以帮助Google在源语言与目标语言中寻找各种相互关系,得出某些特定单词、短语或文件的最佳翻译结果。针对某种特定语言,Google翻译分析的翻译文档越多,译文的质量就越高。据陈雍昇介绍,Google翻译主要有四个步骤:
首先,系统需要将源语言句子切分为短语,这是一门复杂的学问。英文单词之间有空格,中文句子则不然。由于统计翻译系统本身并不具备理解自然语言的能力,在面对“汽水不如果汁好喝”这个句子,“不如”和“如果”都是一种划分可能;其次,不同语系的组织形式有很大差别,研发人员必须通过对平行语料的分析来处理词汇的排序问题。分析平行语料是建模过程,翻译则是利用模型的过程,前者的算法往往比后者复杂;然后,系统需要分辨同一个词的不同形态,例如过去式和现在分词,这是一个判断的过程;最后,将构成目标语言的词汇合理联结起来。
Google目前能够翻译58种语言,如果按排列组合来算,理论上需对应近3000种平行语料,事实上Google翻译的语料库远没这么多,所以很多语言之间的翻译是经过“桥接”的,这在机器翻译中是一种常见技巧。打个形象点的比方吧,目前法英互译的质量肯定比法汉互译要好,如果遇到法译汉的需要,翻译系统可能采取迂回战术,先将法语翻译成英语,再从英语到汉语。比如Google翻译中关于泰文和希伯来文的平行语料较少,但却能够提供这两种语言的翻译,据陈雍昇透露,“这种偏僻语系的互译十之八九是经过桥接的”。(责任编辑:admin)
- “扫一扫”关注融合网微信号
免责声明:我方仅为合法的第三方企业注册用户所发布的内容提供存储空间,融合网不对其发布的内容提供任何形式的保证:不保证内容满足您的要求,不保证融合网的服务不会中断。因网络状况、通讯线路、第三方网站或管理部门的要求等任何原因而导致您不能正常使用融合网,融合网不承担任何法律责任。
第三方企业注册用户在融合网发布的内容(包含但不限于融合网目前各产品功能里的内容)仅表明其第三方企业注册用户的立场和观点,并不代表融合网的立场或观点。相关各方及作者发布此信息的目的在于传播、分享更多信息,并不代表本网站的观点和立场,更与本站立场无关。相关各方及作者在我方平台上发表、发布的所有资料、言论等仅代表其作者个人观点,与本网站立场无关,不对您构成任何投资、交易等方面的建议。用户应基于自己的独立判断,自行决定并承担相应风险。
根据相关协议内容,第三方企业注册用户已知悉自身作为内容的发布者,需自行对所发表内容(如,字体、图片、文章内容等)负责,因所发表内容(如,字体、图片、文章内容等)等所引发的一切纠纷均由该内容的发布者(即,第三方企业注册用户)承担全部法律及连带责任。融合网不承担任何法律及连带责任。
第三方企业注册用户在融合网相关栏目上所发布的涉嫌侵犯他人知识产权或其他合法权益的内容(如,字体、图片、文章内容等),经相关版权方、权利方等提供初步证据,融合网有权先行予以删除,并保留移交司法机关查处的权利。参照相应司法机关的查处结果,融合网对于第三方企业用户所发布内容的处置具有最终决定权。
个人或单位如认为第三方企业注册用户在融合网上发布的内容(如,字体、图片、文章内容等)存在侵犯自身合法权益的,应准备好具有法律效应的证明材料,及时与融合网取得联系,以便融合网及时协调第三方企业注册用户并迅速做出相应处理工作。
融合网联系方式:(一)、电话:(010)57722280;(二)、电子邮箱:2029555353@qq.com dwrh@dwrh.net
对免责声明的解释、修改及更新权均属于融合网所有。