中国移动孙少陵:电信运营商大数据应用和实践(3)
第二个就是BC-HugeTable。这个数据仓库的特点容量大支持PB级,再一个成本很低,存储是基于PC本地盘实现的。性能很高。我们支持索引的查询,所以像大部分查询工作都可以在秒级别完成。此外可靠性也是比较高的。同时我们支持一些定制化。现在我们支持了三到四种存储引擎,可以根据应用需求定制一些新的存储引擎和索引类型。在接口支持方面,我们支持传统的数据库,同时也提供MapReduce分布式编程接口。外围工具我们有开发了并行的数据加载、备份恢复等工具。
数据挖掘这块,我们有一个产品叫做BC-PDM系统。支持45种ETL操作,支持15种主要的主流算法,当然这个主要算法还是基于我们电信应用的。同时支持数据统计、变量分析、海量数据探索等等功能。我们也支持了社交网络分析的算法。可以支持网络特征分析、社团发现、演化、展示等,这个对于运营商精准营销来说是一个非常重要的特点。同时还支持了很多数据接口,比如我们可以跟现在主流交易数据库进行数据交换,还支持一些开源系统。同时我们还支持SaaS和PaaS服务模式。这个系统是可以通过Web的方式,用户通过拖拉拽或者写一些脚本方式实现数据挖掘应用,数据上载到我们集中平台上,做完数据挖掘和分析之后,用户把结果拿回来。这种应用模式避免了用户为了临时的数据挖掘和分析的需求去采购大量基础设施的情况。
我们还支持丰富的UI,包括图形化的拖拉拽的界面,现在每一个ETL操作和数据挖掘算法,我们都做了图标形式在系统上展现出来,用户把几个图标拖拽在一起定义它们之间的数据关系就可以形成应用,用起来非常方便。同时对于比较专业的用户提供了命令行等方式提供它的应用开发。此外还支持定制化的二次开发。
搜索引擎这块跟大数据相关的,我们在网页采集、网页分析、自然语言处理这方面做了一些工作。网页采集方面,我们也测试了一下,跟开源的系统相比,我们效率可以提高一个数量级。
商业智能,为了满足中国移动精分系统集中化建设的要求来实现的一个平台。精分系统,每个省都建了比较大的数据仓库,围绕其建设了很多专门数据提示,这对于基础设施投资以及系统资源利用上都不是一个很好的解决方案。现在我们开发的BI-PaaS,可以实现全网数据集中存储,并且提供一个应用运行环境、应用开发平台。用户的应用可以在本地开发,开发完之后提交到集中平台上执行。对后台数据进行操作,最后就可以得到你想要的分析结果。
包括了两大部分,一个是开发套间,它是用户下载到本地,可以在本地进行各种应用模拟开发。第二个是BI PaaS Server,是后台一个比较大的分布式系统,集中存储各种各样的数据并且能够托管用户应用,并行执行之后尽可能快速返回结果。
以上介绍了我们“大云”在大数据处理方面所做的研发工作。后面举几个案例。通过“大云”系统实现的应用。第一个是经营分析系统当中,通过BC-PDM和BC-ETL去代替ETL的工作。传统的ETL,当然有专门的ETL工具,但它不是主流。主流的方式一般都是ELT,把数据抽取以后先加载在数据仓库,在库内进行清晰转换,这是目前应用的一个主要方式。这种方式对于数据仓库容量造成了很大浪费,因为数据仓库价格还是比较贵的。所以我们通过BC-ETL把数据仓库内一些转换和清晰的工作卸载到BC-ETL系统中,可以大大降低投资。因为它是并行化系统,所以在实际应用过程当中就发现了,无论是成本方面还是应用性能方面,都有一个比较大的提升。
第二个应用场景就是信令监测系统。运营商是经营网络的,在我们的系统当中有非常丰富的数据信息资源。比如说现在我们全网都在做信令监测系统,不光包括传统的电话交换的信令还包括了现在上网的信令等,这些信令当中也蕴含了一些丰富的信息,我们可以用它来进行网络优化。通过信令合成来看端到端,在哪一段我们的网络存在故障或者瓶颈。这个信令监测系统对于实时性要求比较高。比如说处理上亿条信令的挖掘和处理,要求是在一分钟以内去反馈。还有分组域的信令也蕴含着很多用户行为的数据,例如GPS等接口我们可以获取用户上网所有的数据。其实这些数据,我们对于用户行为分析、精准营销方面,是有很大价值的,同时这个量也是非常大的。所以说我们现在采用大数据的技术,在部分省是部署“大云”系统做大数据处理。同时硬件成本上也有降低。比如查询性能可以提高5到7倍。
以上只是两个例子,其实还有很多例子,比如说详单查询,移动公司运营商以前是邮寄给你,或者你去营业厅打印。未来我们可以在网上给你提供服务,可以查找过去几年的数据,所以它是一个灵活分析系统、在线交易的一个综合功能的解决方案。这也是大数据处理的一个很重要的应用场景。
以上举了一些案例,今天应该说在座的各位都是各行各业的CIO,做信息化方面的专家,我们也非常希望未来在各个领域信息化处理方面能够跟各位多交流,希望未来能够给各行各业提供更好的服务。我的演讲就到这,谢谢大家!
(责任编辑:admin)- “扫一扫”关注融合网微信号
免责声明:我方仅为合法的第三方企业注册用户所发布的内容提供存储空间,融合网不对其发布的内容提供任何形式的保证:不保证内容满足您的要求,不保证融合网的服务不会中断。因网络状况、通讯线路、第三方网站或管理部门的要求等任何原因而导致您不能正常使用融合网,融合网不承担任何法律责任。
第三方企业注册用户在融合网发布的内容(包含但不限于融合网目前各产品功能里的内容)仅表明其第三方企业注册用户的立场和观点,并不代表融合网的立场或观点。相关各方及作者发布此信息的目的在于传播、分享更多信息,并不代表本网站的观点和立场,更与本站立场无关。相关各方及作者在我方平台上发表、发布的所有资料、言论等仅代表其作者个人观点,与本网站立场无关,不对您构成任何投资、交易等方面的建议。用户应基于自己的独立判断,自行决定并承担相应风险。
根据相关协议内容,第三方企业注册用户已知悉自身作为内容的发布者,需自行对所发表内容(如,字体、图片、文章内容等)负责,因所发表内容(如,字体、图片、文章内容等)等所引发的一切纠纷均由该内容的发布者(即,第三方企业注册用户)承担全部法律及连带责任。融合网不承担任何法律及连带责任。
第三方企业注册用户在融合网相关栏目上所发布的涉嫌侵犯他人知识产权或其他合法权益的内容(如,字体、图片、文章内容等),经相关版权方、权利方等提供初步证据,融合网有权先行予以删除,并保留移交司法机关查处的权利。参照相应司法机关的查处结果,融合网对于第三方企业用户所发布内容的处置具有最终决定权。
个人或单位如认为第三方企业注册用户在融合网上发布的内容(如,字体、图片、文章内容等)存在侵犯自身合法权益的,应准备好具有法律效应的证明材料,及时与融合网取得联系,以便融合网及时协调第三方企业注册用户并迅速做出相应处理工作。
融合网联系方式:(一)、电话:(010)57722280;(二)、电子邮箱:2029555353@qq.com dwrh@dwrh.net
对免责声明的解释、修改及更新权均属于融合网所有。