谷歌翻译的中国基因(2)
“提高翻译质量是一个多管齐下的技术。翻译的质量最主要的还是需要收集平行语料,此外,如果在建模方面可以找到更好的匹配算法或拆分算法,双管齐下效果更好。”陈雍昇打了个巧妙的比方,“平行语料好比食材,只有材料够好,厨师的手艺也够好,而且也有一些调味料的情况下,才能做出美味的菜肴。”
移动翻译——“20%项目”的产物
Google有个20%项目,允许员工拿出20%的工作时间,用来从事本职工作以外的项目,这样就能开发出更多种类的产品,移动翻译可以算作Google“20%项目”的产物。
“最初移动这方面有几个因素,第一个就是因为大家都说移动是未来,这我相信。第二,发生了一个小故事——有个同事做出了手机网页版的移动翻译,并且发布出去,结果那段时间我们的流量呈几何倍数的疯涨。”这使陈雍昇意识到移动搜索的市场需求之大。
他开始在上海研发中心游说,问谁愿意做这个项目的义工。朱文章(Google翻译iPhone主导工程师,作者注)对手机应用很感兴趣,就在正活之外进行iPhone版Google翻译的研发,只用两天时间就做出了产品雏形。“我们第一个手机翻译产品的就是这样诞生的,”谈起移动翻译,陈雍昇的自豪之情溢于言表。
上海团队、美国团队对于产品雏形都很满意,并且为朱文章加拨了人力支持。大概两三个季度后,由朱文章领导开发的iPhone版Google翻译正式发布。在超过一周的时间里,它一直是全球排名第一的免费软件。
理论上来讲,Google能在电脑端能够多少语种的互译,也能在手机端提供那么多。而在实际情况中,移动翻译提供多少语种的语音翻译,取决于其支持多少语种的语音识别。语音识别需要庞大的数据来源,才能建立很好的分辨模型,对此Google早有准备。2007年,Google开始提供GOOG- 411) 处理语音搜索。虽然GOOG-411并非Google的重要收入来源,但它为研发人员收集了海量数据,使之能够不断完善语音识别算法。一年后Google 推出的语音搜索,足以比肩其他公司历时数年才搭建起来的类似系统。据Google称,这款语音搜索服务为Google Android和苹果iPhone等智能手机平台上“更多富有野心的服务提供了基础”。例如,装有Froyo软件的Android用户可通过语音控制手机的绝大部分功能,而Google推出的iPhone应用也内置了语音识别功能。
Google 2010年10月关闭了这项服务,并在声明中表示,计划将相关资源投入到“使下一代Google产品和服务支持多语种语音的技术”中,我们现在看到的语音翻译即是成果之一。可以预见,语音识别未来将成为Google更多服务的特性。
虽然移动翻译接收的源语言多数具有口语化的特点,在陈雍昇看来,这对翻译质量并不会造成太大影响。首先,用户使用语音翻译时,对自己要讲的内容一般都有明确的认识,所以语句的流畅程度跟桌面翻译的差异不大。其次,人们使用语音翻译时的说话方式不同于演讲,多数情况下语句简短,对于语音翻译来说不难应对。 “二者最大的差异在于用户体验方面。电脑键盘使用很方便,而手机键盘很小,我们必须想办法方便用户输入源语言。此外,语音翻译的使用环境可能跟办公室有较大区别,相对于口语中偶尔出现的停顿和重复现象,外界杂音对翻译质量的影响更大,所以我们得过滤不必要的讯息。”
过滤杂音的任务多由翻译程序完成,研发人员可以设定一个音量阈值,将低于此值的杂音筛掉。此外,如果语言出现停顿,将其作为句子结束还是“正在考虑、尚未说完”来处理,也是翻译程序可以决定和控制的。再者,“如果用户说错了一两个字该怎么处理?让其重说一遍还是直接修改那一两个字,这些用户体验方面的问题,都可以通过完善翻译程序来提升。”(责任编辑:admin)
- “扫一扫”关注融合网微信号
免责声明:我方仅为合法的第三方企业注册用户所发布的内容提供存储空间,融合网不对其发布的内容提供任何形式的保证:不保证内容满足您的要求,不保证融合网的服务不会中断。因网络状况、通讯线路、第三方网站或管理部门的要求等任何原因而导致您不能正常使用融合网,融合网不承担任何法律责任。
第三方企业注册用户在融合网发布的内容(包含但不限于融合网目前各产品功能里的内容)仅表明其第三方企业注册用户的立场和观点,并不代表融合网的立场或观点。相关各方及作者发布此信息的目的在于传播、分享更多信息,并不代表本网站的观点和立场,更与本站立场无关。相关各方及作者在我方平台上发表、发布的所有资料、言论等仅代表其作者个人观点,与本网站立场无关,不对您构成任何投资、交易等方面的建议。用户应基于自己的独立判断,自行决定并承担相应风险。
根据相关协议内容,第三方企业注册用户已知悉自身作为内容的发布者,需自行对所发表内容(如,字体、图片、文章内容等)负责,因所发表内容(如,字体、图片、文章内容等)等所引发的一切纠纷均由该内容的发布者(即,第三方企业注册用户)承担全部法律及连带责任。融合网不承担任何法律及连带责任。
第三方企业注册用户在融合网相关栏目上所发布的涉嫌侵犯他人知识产权或其他合法权益的内容(如,字体、图片、文章内容等),经相关版权方、权利方等提供初步证据,融合网有权先行予以删除,并保留移交司法机关查处的权利。参照相应司法机关的查处结果,融合网对于第三方企业用户所发布内容的处置具有最终决定权。
个人或单位如认为第三方企业注册用户在融合网上发布的内容(如,字体、图片、文章内容等)存在侵犯自身合法权益的,应准备好具有法律效应的证明材料,及时与融合网取得联系,以便融合网及时协调第三方企业注册用户并迅速做出相应处理工作。
融合网联系方式:(一)、电话:(010)57722280;(二)、电子邮箱:2029555353@qq.com dwrh@dwrh.net
对免责声明的解释、修改及更新权均属于融合网所有。