李开复:从1983到2017,我的幸运与遗憾(2)
4、对于学术单位来说,最大的问题来自于没有足够的资源(也没有兴趣)收集、清洗、标注大量的语料。对于小公司来说,语料和计算力都是问题。
最后,瑞迪教授计划采用“专家系统”来完成项目,因为这个方法需要的数据有限。
专家系统是早期人工智能的一个重要分支,你可以把它看作是一类具有专门知识和经验的计算机智能程序系统,一般采用人工智能中的知识表示和知识推理技术来模拟通常由领域专家才能解决的复杂问题。
但我不认同。
之前参加过的奥赛罗的人机博弈,让我对统计概念有了充分的理解,我对瑞迪教授的研究方法产生动摇。
我相信建立大型的数据库,然后对大的语音数据库进行分类,有可能解决专家系统不能解决的问题。
另外,在1985年,美国标准局 (NationalInstitute of Standards and Technology)也意识到数据不标准会影响科研进步。所以在语音识别问题上,标准局设定了标准的语音和语言的训练集、测试集。要求每个学校的每个团队都用同样的训练集来训练模型,可以自己调好系统参数,比赛最后一天大家拿到数据,有一天时间跑出结果,大家评比。
我从这个标准数据集和测试看到机会。
再三思考后,我决定鼓足勇气,向瑞迪教授直接表达我的想法。我对瑞迪说:“我希望转投统计学,用统计学来解决这个‘不特定语者、大词汇、连续性语音识别’。”
我以为瑞迪会有些失望,没想到他一点都没有生气,他轻轻地问:“那统计方法如何解决这三大问题呢?”
瑞迪教授耐心地听完我激情的回答后,用他那永远温和的声音告诉我:“开复,你对专家系统和统计的观点,我是不同意的,但是我可以支持你用统计的方法去做,因为我相信科学没有绝对的对错,我们都是平等的。而且,我更相信一个有激情的人是可能找到更好的解决方案的。”
那一刻,我的感动无以伦比。因为对一个教授来说,学生要用自己的方法作出一个与他唱反调的研究。教授不但没有动怒,还给予充分的支持,这在很多地方是不可想象的。
统计学需要大数据库,我们如何才能建立起大的数据库呢?
瑞迪教授看到我愁眉不展的样子,再一次给了我支持。他说,“开复,虽然说我还是对你的研究方法有所保留,但是,在科学的领域里,其实也无所谓老师和学生的区别,我们都是面临这一个难题的攻克者,所以,如果你真的需要数据库,那么,让我去说服政府帮你建立一个大的数据库吧!”(责任编辑:方向)
- “扫一扫”关注融合网微信号
免责声明:我方仅为合法的第三方企业注册用户所发布的内容提供存储空间,融合网不对其发布的内容提供任何形式的保证:不保证内容满足您的要求,不保证融合网的服务不会中断。因网络状况、通讯线路、第三方网站或管理部门的要求等任何原因而导致您不能正常使用融合网,融合网不承担任何法律责任。
第三方企业注册用户在融合网发布的内容(包含但不限于融合网目前各产品功能里的内容)仅表明其第三方企业注册用户的立场和观点,并不代表融合网的立场或观点。相关各方及作者发布此信息的目的在于传播、分享更多信息,并不代表本网站的观点和立场,更与本站立场无关。相关各方及作者在我方平台上发表、发布的所有资料、言论等仅代表其作者个人观点,与本网站立场无关,不对您构成任何投资、交易等方面的建议。用户应基于自己的独立判断,自行决定并承担相应风险。
根据相关协议内容,第三方企业注册用户已知悉自身作为内容的发布者,需自行对所发表内容(如,字体、图片、文章内容等)负责,因所发表内容(如,字体、图片、文章内容等)等所引发的一切纠纷均由该内容的发布者(即,第三方企业注册用户)承担全部法律及连带责任。融合网不承担任何法律及连带责任。
第三方企业注册用户在融合网相关栏目上所发布的涉嫌侵犯他人知识产权或其他合法权益的内容(如,字体、图片、文章内容等),经相关版权方、权利方等提供初步证据,融合网有权先行予以删除,并保留移交司法机关查处的权利。参照相应司法机关的查处结果,融合网对于第三方企业用户所发布内容的处置具有最终决定权。
个人或单位如认为第三方企业注册用户在融合网上发布的内容(如,字体、图片、文章内容等)存在侵犯自身合法权益的,应准备好具有法律效应的证明材料,及时与融合网取得联系,以便融合网及时协调第三方企业注册用户并迅速做出相应处理工作。
融合网联系方式:(一)、电话:(010)57722280;(二)、电子邮箱:2029555353@qq.com dwrh@dwrh.net
对免责声明的解释、修改及更新权均属于融合网所有。