北京华智鑫达科技李宁:云计算与大数据应用
2012年7月22日下午,由北京大学信息化与信息管理研究中心、北京大学CIO班教务办公室主办,CIO时代网承办,北达软协办的“首届中国大数据应用论坛”在北京大学北配殿成功举办。来自各企事业单位领导、行业权威专家、信息化负责人等出席了本次论坛,就如何挖掘大数据价值、大数据时代的应用等问题进行了分享和交流。
北京华智鑫达科技发展公司首席架构师李宁先生在论坛上做了关于《云计算与大数据应用》的主题演讲,以下为演讲实录:
各位领导下午好!今天我的演讲题目是《云计算与大数据应用》。我们公司是专注于云计算平台与大数据解决方案的顾问公司,为企业、尤其是传统制造企业提供低成本、高效、安全的信息化解决方案,我们一直研究开源系统应用。Hadoop设计理念跟我们公司服务宗旨非常吻合,所以今天我也要着重讲一下Hadoop。
首先看一下现在的真正挑战。我认为真正的挑战就是数据量几何式急速增加。这个挑战是大部分公司都会面临的问题。几何式急速增加可能在传统行业里没有那么陡,但是将来也会遇到。那么我们如何面临数据量的增加呢?刚才几位领导和专家已经谈过了,大量结构化数据和大量非结构化数据。我认为企业如果建立大数据的处理能力需要几个方面:数据快速存储能力、搜索能力、分享能力、深度分析复杂数据等能力。
我们对大数据技术发展也进行了研究。Google在创业阶段,它的想法是把整个互联网内容下载下来,计算分析网站内容。他们是创业阶段没有那么多钱,就买了很多相对便宜的服务器,给集中在一起,将整个互联网数据下载下来,并且计算。2005年Google发表了一篇论文,就是分布式计算跟存储的论文。这个时候Nutch项目的领导人对这个方法很感兴趣,使用这个。最后Yahoo也用了这个方法,研发了几年把研发结果回赠给他们。这个项目就变成现在众所周知的Hadoop项目。
Hadoop特色,刚才嘉宾们也说过了。首先是为大规模数据存储和计算提供可靠、高效、可伸缩的开源软件框架,应用的硬件需要成本低廉。这是其他项目所无法比拟的。刚才中国移动的领导也提到一个对比表,一个是400万投资,一个是25万的投资,这就是Hadoop的魅力所在之一。它有几个假设,最重要的假设就是它的主要节点是要保证运行,如果崩溃了的话,问题很大。DataNode崩溃率是非常高的。这是两个关键的假设,这些假设决定了DataNode可以用很便宜的硬件设施来实施。
下面介绍一下Hadoop的架构。它是一块数据过来,分了很多块(128M或者64M),通过运算产生中间结果然后得到最终结果,这就是一个最简单的Hadoop分布式存储跟计算的架构。(责任编辑:admin)
- “扫一扫”关注融合网微信号
免责声明:我方仅为合法的第三方企业注册用户所发布的内容提供存储空间,融合网不对其发布的内容提供任何形式的保证:不保证内容满足您的要求,不保证融合网的服务不会中断。因网络状况、通讯线路、第三方网站或管理部门的要求等任何原因而导致您不能正常使用融合网,融合网不承担任何法律责任。
第三方企业注册用户在融合网发布的内容(包含但不限于融合网目前各产品功能里的内容)仅表明其第三方企业注册用户的立场和观点,并不代表融合网的立场或观点。相关各方及作者发布此信息的目的在于传播、分享更多信息,并不代表本网站的观点和立场,更与本站立场无关。相关各方及作者在我方平台上发表、发布的所有资料、言论等仅代表其作者个人观点,与本网站立场无关,不对您构成任何投资、交易等方面的建议。用户应基于自己的独立判断,自行决定并承担相应风险。
根据相关协议内容,第三方企业注册用户已知悉自身作为内容的发布者,需自行对所发表内容(如,字体、图片、文章内容等)负责,因所发表内容(如,字体、图片、文章内容等)等所引发的一切纠纷均由该内容的发布者(即,第三方企业注册用户)承担全部法律及连带责任。融合网不承担任何法律及连带责任。
第三方企业注册用户在融合网相关栏目上所发布的涉嫌侵犯他人知识产权或其他合法权益的内容(如,字体、图片、文章内容等),经相关版权方、权利方等提供初步证据,融合网有权先行予以删除,并保留移交司法机关查处的权利。参照相应司法机关的查处结果,融合网对于第三方企业用户所发布内容的处置具有最终决定权。
个人或单位如认为第三方企业注册用户在融合网上发布的内容(如,字体、图片、文章内容等)存在侵犯自身合法权益的,应准备好具有法律效应的证明材料,及时与融合网取得联系,以便融合网及时协调第三方企业注册用户并迅速做出相应处理工作。
融合网联系方式:(一)、电话:(010)57722280;(二)、电子邮箱:2029555353@qq.com dwrh@dwrh.net
对免责声明的解释、修改及更新权均属于融合网所有。