北京华智鑫达科技李宁:云计算与大数据应用(2)
最上面是它的文件结构,下面是map,再下面就是Reduce。我们对这一套开源系统生态系统也主要的看了一遍,现在这个生态系统发展非常非常快,刚才也有专家说,这是一个非常活跃的。我主要想说的一个是APRCHE HBASE,在Hadoop上面建立的一个数据库系统,还有Yahoo用的,这个诺基亚也用的非常多。我们对机器语言的学习能力,比如大规模数据里面找规则、找规律,这种应用深度挖掘的能力实际上现在在开源系统里面有,当然它比较复杂,但它能完成很多我们以前没有办法完成的东西。咱们也有很多人上亚马逊买书,买完书以后你再上去的时候会有很多推荐,这些推荐就是类似协同过滤计算方式,他们会推送给你一些建议。上面的图标所建立的基础都是在Hadoop、HDFS等上面的。
下面我谈两个案例,一个是传统行业大数据的应用。这是我们以前做的一个项目。这个项目是什么呢?这家公司是一个老牌的德国制造企业,他们的数据量非常大。面临的问题一个是查询速度慢,还有就是ERP里面提供的功能不够完善(已经没有办法拓展了),他们的报告已经不能满足需求了。这个项目我们叫做“信用管理项目”,大部分ERP信用系统都是建立在应收账款上面的信用管控体系。而这个信用管控体系不能完全涵盖企业的业务关系。比如说这个公司有一些客户,希望它在做订货的时候就要占用一些信用信息,不然永远不提货就占用我们太多资源。但是在我们的信用管控体系是无法涵盖的,ERP里无法实施。当然它里面还有其他的一些系统,CRM、Logs等等。我们会通过预算机制把ERP系统里数据实时推送到数据聚合和分析系统上,这个系统里包括所有我们所关心的ERP信息,还有CRM里面的很多数据。有了这些数据以后,就可以进行分析,而得到的结果都是实时的分析结果。
下面的图就是实时信用报告。可以分权限开放给相关销售人员。比如说跟某个客户做生意的时候,我会几秒之内全部调入信息,去做一些决定。产品下订单的人也是类似的界面。这个案例就像Hadoop提供了PB级别的数据存储和处理能力。我更加喜欢强调“处理能力”。红山世纪的领导刚才说了,传统行业很少能达到PB级别,但是TB级别你现在有没有能力去实时处理呢,而在Hadoop上面可以提供这样的能力。而我们就是专门做这样的服务。
第二个案例是传统的BI模型架构。这个架构就是比较简单的,从各个地方收集的数据,例如CRM等等数据,我们可以把它存到一个固定的空间,就是原始数据存储这块。但是这一块很有可能是一个很大的数据库的数据。我们从数据库里面收取一些进行ETL计算。
这里面有几个问题必须要说,第一个问题是这些数据必须得有备份并且要清理,如果到了TB级别数据,我觉得产生一个BI可能至少得需要一个晚上,再复杂的话一个晚上肯定完成不了。所以就无法完成正常的ETL计算。再一个这些BI模型里面,我们给用户回答的问题都是预先设置好的。比如说这几个月销售数据、对比等等。
而基于大数据BI与数据分析架构里面,是把ETL计算跟复杂计算都放在了存储区域,那么几乎可以以实时的方式把运营数据以及很多的非结构化数据给抽象出来,产生报告。这就是大数据在新型BI跟数据分析架构里面所起的作用。
而传统BI模型里面它还有一个问题,就是无法做数据分析。我说的数据分析是很复杂的计算数据分析。如果要是把原始数据存储这一块进行备份清理之后,那么这个存储区域里面存的数据是不完整的。比如清到两年前的数据,那么领导说“要两年前的数据”,你还得恢复。这样时间会更长。像这种问题,我们在大数据BI里面是完全可以解决的。
刚才有人讲了云计算与大数据的关系。我们认为云计算是大数据的基础。大数据也是解决了云计算的一些关键问题。以前云计算经常讲SOA、集成,集成之后就会产生大数据,各种奇奇怪怪非结构化的结构、半结构化数据、结构化数据,不一样的数据、复杂数据都存储在一起,这些东西你如何管理?我觉得通过Hadoop都可以解决。
举个例子,诺基亚在几年前就一直在使用Hadoop,他们部署的中心有伦敦、柏林、北京,使用的都是Hadoop。
云计算与大数据对企业和政府的影响与价值。提高企业信息系统的快速应变能力,降低企业信息系统的部署成本。我从事这个行业有20多年,其中10年帮助国企做信息化方面的建设。去年有一家公司找我,问我“什么样的工作会让你干的时间长?”我回答“这种工作需要长期持续地激发我肾上腺激素的能力。而大数据它的确是能够激发我对这方面的热情。”上也列出了一些主要的原因。现在很多公司没有意识到大数据对我们的影响,我们总是采购特别多的硬件,但是没有真正的应用到它。也有一些企业在面临着真正实际问题的时候,去找一些顾问公司,那些顾问公司可能会给你很多很多建议,你自己都无法分辨。最后有可能实施结果没有真正达到你的要求。那么我们公司可以解决,这也是我们公司的价值。
下面介绍一些应用场景。比如说产品应用分析,比如你想分析而基础数据又庞大,如果按照传统分析模式,你需要很长时间得到结果,而Hadoop不到一分钟就可以。再比如用户行为分析、协同过滤、安全等等。
我们认为大数据的行业应用实在是太多了,这里我也就不一一介绍了,刚才嘉宾也提到了。大数据催生了一个行业,就是图中间的一个数据作为服务的行业。这是非常有潜力可挖的。我的报告就到这,谢谢大家!
- “扫一扫”关注融合网微信号
免责声明:我方仅为合法的第三方企业注册用户所发布的内容提供存储空间,融合网不对其发布的内容提供任何形式的保证:不保证内容满足您的要求,不保证融合网的服务不会中断。因网络状况、通讯线路、第三方网站或管理部门的要求等任何原因而导致您不能正常使用融合网,融合网不承担任何法律责任。
第三方企业注册用户在融合网发布的内容(包含但不限于融合网目前各产品功能里的内容)仅表明其第三方企业注册用户的立场和观点,并不代表融合网的立场或观点。相关各方及作者发布此信息的目的在于传播、分享更多信息,并不代表本网站的观点和立场,更与本站立场无关。相关各方及作者在我方平台上发表、发布的所有资料、言论等仅代表其作者个人观点,与本网站立场无关,不对您构成任何投资、交易等方面的建议。用户应基于自己的独立判断,自行决定并承担相应风险。
根据相关协议内容,第三方企业注册用户已知悉自身作为内容的发布者,需自行对所发表内容(如,字体、图片、文章内容等)负责,因所发表内容(如,字体、图片、文章内容等)等所引发的一切纠纷均由该内容的发布者(即,第三方企业注册用户)承担全部法律及连带责任。融合网不承担任何法律及连带责任。
第三方企业注册用户在融合网相关栏目上所发布的涉嫌侵犯他人知识产权或其他合法权益的内容(如,字体、图片、文章内容等),经相关版权方、权利方等提供初步证据,融合网有权先行予以删除,并保留移交司法机关查处的权利。参照相应司法机关的查处结果,融合网对于第三方企业用户所发布内容的处置具有最终决定权。
个人或单位如认为第三方企业注册用户在融合网上发布的内容(如,字体、图片、文章内容等)存在侵犯自身合法权益的,应准备好具有法律效应的证明材料,及时与融合网取得联系,以便融合网及时协调第三方企业注册用户并迅速做出相应处理工作。
融合网联系方式:(一)、电话:(010)57722280;(二)、电子邮箱:2029555353@qq.com dwrh@dwrh.net
对免责声明的解释、修改及更新权均属于融合网所有。