您现在的位置:融合网首页 > 工信 > 中国移动 >

中国移动孙少陵:电信运营商大数据应用和实践(2)

来源:CIO时代网 作者:佚名 责任编辑:admin 发表时间:2012-07-24 19:29 
核心提示:什么是大数据?刚才王主任、宁老师也都提到了。实际上大数据它的最主要特征就是大。我感觉现在整个业界对于大数据都没有一个非常的明晰的认识。维基百科收录着IBM最先提出来的解释,大数据有三个特征:首先是规模大

什么是大数据?刚才王主任、宁老师也都提到了。实际上大数据它的最主要特征就是“大”。我感觉现在整个业界对于大数据都没有一个非常的明晰的认识。维基百科收录着IBM最先提出来的解释,大数据有三个特征:首先是规模大,大家也都认同,比如说YouTube、Facebook,每天在数据处理、数据存储量能远超过历史的数据,所以规模大是其基本特征;第二个特征就是种类繁多。除了传统数据库、数据仓库处理的结构化数据以外,其实很多半结构化,甚至是说非结构化的数据在大数据处理当中都变成非常重要的原材料。尤其是像话音、视频、文本等等,这些原来并不是机器所能识别处理的。而在大数据时代这是基本要求;第三个特征就是处理速度要提高。我们都知道,传统上来说分析型系统某种意义上是一个非实时、后台型的系统,但是现在很多应用它实际上要求联机分析、在线分析,对于实时性要求就会有很大提高。比如说Google、百度,它搜索引擎实际上随着互联网上信息更新速度越来越快,比如说门户网站上的信息几分钟可能就更新一次。那我们要求几分钟之内就要找到相关新闻。做搜索引擎的,要重算一遍计算量会非常大的,像Google、百度会有实时索引的系统,可以通过增量的方式在几秒钟之内就把新的索引上线,这就是大数据处理实时性要求高的典型案例。

首先看一下,对于大数据量增长的历史背景。我们理解,数据量之所以有很大的增长会有两个方面的驱动,第一个就是数据产生量是不断增加的;现在网络带宽是成数量级的往上提升,同时我们产生数据,从原来的PC,现在到了手机,当然对物联网传感器也是数据产生一个很重要的来源。此外,像Web2.0等等,包括博客、微博等等这样的一些新技术和模式使每个人甚至说每个传感器都变成了数据产生来源,所以说数据增长量是越来越快的。

第二,信息存储时间要求也越来越长。也就是说,信息对于每个企业来说,它慢慢地变成战略资产,很多企业希望数据永远不删除。那么这就对于数据处理和存储能力带来了很高的要求。比如像中国移动,我们有一些数据必须要求长时间保存,有的是因为企业为了做经营分析、决策支持方面的要求,像美国股市等等有审计要求,还有国家提出来的一些要求。总体上来说,数据保存时间要求越来越长,这要求我们存储数据量会不断增大。

实时性要求方面,传统大规模数据处理是通过数据仓库来实现的。数据仓库发展过程经历了几个阶段,一个阶段它是一个统计系统,从数据仓库里面的数据去发现到底现在已经发生了什么事情,这是一个最基本的基础统计查询功能。第二个阶段就是为什么发生这些事情?这就是一个分析过程。数据动态分析查询,是这么一个过程。第三个阶段,将会发生什么事情?这里就提出了对于数据挖掘的要求。刚才宁主任也对数据挖掘方面做了很多阐述。数据挖掘它能根据我们过去经验导出未来可能会发生什么事情,它是这样一个技术。第四个阶段,需要数据能够快速更新,并且能够快速地了解正在发生什么事情。第五个阶段,要实现我们希望发生什么事情。这个愿望,我们需要通过什么样的举措达成?就是一个事件驱动的概念。

我觉得这几个发展过程同样适用于大数据。大数据在实时性方面的要求,目前应该说这方面要求非常迫切。它的主要实现技术包括几个方面,有一些基于内容的分析。有些公司,像SAP它有一个系统,通过内存实现快速地分析,能够实现秒级结果的呈现。还有一个并行计算的技术,当然这个并行计算还包括图计算、类似于像流计算并行计算的框架,这些都是一些关键技术。还有一个是非结构化数据的管理。国内有一些人在大数据三个“V”基础之上曾经加过一个“V”,就是说大数据价值密度比较低。但我个人不认同这个观点。非结构化数据不是说信息密度低,而是说它有很多信息我们是无法抽取和使用的。这个状况在十几年发展过程当中有了一个很大的变化,我们可以看下,1996年的数据。1996年的时候非结构化数据它的量超过了结构化数据的量。我们可以看到左边的图非结构化数据价值基本接近于零,很少,也是受限于当时的技术手段,当时非结构化数据处理技术并不成熟,所以我们没有办法使用它。2006年,右边的图,这个时候我们的非结构化数据它的价值,这个价值是计算整个全世界市场上,非结构化数据无论从制造、使用以及最终服务,总体的市场价值,它的价值已经是超过了结构化数据。所以说非结构化数据使用对于整个人、机器智能、类信息处理等发展会起到越来越重要的作用。

非结构化数据处理主要的一些技术包括了低成本、海量数据存储管理。非结构化数据量大,所以我们存储成本要低。再一个就是有一些搜索引擎当中,搜索引擎发展过程当中所发展出来的一些技术,例如自然语音处理。处理文本信息涉及到分词,对于自然语言理解等等。这个对非结构化处理有非常重要的作用。现在对于视频、文本等等的处理技术,发展速度也很快。现在有很多系统,比如说苹果提供的SIRI等等里面都涉及了自然语言方面的技术。这就为非结构化数据的积极处理带来了很大方便。还有一点是大规模并行计算进行非结构化数据处理。这个在产业当中包括在我们中国移动生产过程当中也用到了很多,包括对于视频渲染分布式处理等技术。

在大数据领域,现在有一个开源系统大家应该比较熟悉,就是Hadoop,它已经变成了大数据领域的事实标准。Hadoop最开始是由Yahoo团队资助建立起来的,目前全球有很多制造商、互联网公司都在贡献自己的代码,也是作为Hadoop的重要用户。它的拓展性特别好,一个集群可以达到四千个节点。再一个是通用性比较强,可以处理各种数据。支持MapReduce的接口。通过MapReduce基本上可以通过各种各样的编程语言实现很多分布式计算处理的工作。再一个就是系统可靠性非常高,数据通过多副本方式实现。同时支持自动负载均衡等功能。此外易于管理。再一个现在的社区也是非常活跃。目前除了有很多公司是在致力于免费的Hadoop的开源开发工作,还有很多公司他们通过改写、重写Hadoop提供商业产品、商业服务。目前Hadoop产业是越来越壮大和成熟了。

互联网公司以及全球很多制造商、运营商目前都在积极使用Hadoop。包括百度、淘宝等等,都是Hadoop很大的用户。像IBM、英特尔等等也都有Hadoop的解决方案。现在几大运营商都在使用Hadoop做一些大数据的处理工作。

下面谈一下运营商对于大数据的需求。运营商传统上对于海量数据存储处理依赖于数据库和数据仓库,它发展过程当中面临着拓展不足的问题。比如说省的大公司比如说它的交易系统、分析系统之类的,由于这个问题面临着分库问题,分库之后也带来了很多问题,比如数据资源利用不均、管理复杂等等问题。还有传统数据仓库对于非结构化数据处理能力比较有限。

运营商在大数据处理应用可以总结出四个模型,比如准实时批处理应用。这一类是批量的输入数据,输出结果不需要立即呈现。这类典型应用包括内容计费、网间结算、话单文件计费等等。这些实际上都是属于这一类的准实时批处理应用。再一类就是非实时的批处理应用,这一类可以允许小时级别的返回结果。典型应用比如ETL数据处理、KPI计算、各种网络和日志清晰、用户行为分析等等。第三类就是在线事务处理,必须要在秒级别内完成,而且交易可靠性要求也是非常之高,典型应用就是各种门户系统以及CRM系统、实时事件告警、积分平台、搜索引擎等都属于这一类。最后一个是在线分析应用,这逻辑要求比ORTP要高,对于数据库更新要求会低一些。这一类的应用主要体现在主题分析、数据多维分析、市场预测等等应用。

之前也提到了,运营商大数据处理系统跟我们之前提到的大数据总体发展趋势是一样的。都是数据量越来越大,但是实时性要求越来越高,这就给技术实现难度带来了越来越大的挑战。

下面介绍一下中国移动大数据方面的应用实践。中国移动在大数据处理方面是跟云计算研发工作齐头并进来做的。我们的研发主要是体现在我们自主开发的“大云系统”当中。我们有几个产品线。

比如分析型PaaS产品,这是大数据处理的一个主要产品。里面包括Hadoop基础平台,这个Hadoop是我们根据自己应用的要求做了一些修改。第二就是基于Hadoop的大数据仓库。第三个是并行数据挖掘工具。第四个是搜索引擎系统。此外还有一个是商业智能系统。

对于这几个系统我就分别做一下介绍。第一个就是BCHadoop。它跟传统的Hadoop相比有几个特点,首先是它的可用性会更高。我们知道Hadoop它的名字节点是单的,当然像一些厂家例如Facebook,分支是做了双名字节点,目前做的也是手动实现主备倒换。而我们可以做到自动的秒内的主备倒换。在多租户等方面也做了一些相关的东西,在Hadoop可管理方面也开发了一些相关的工具和系统。(责任编辑:admin)

  • “扫一扫”关注融合网微信号

免责声明:我方仅为合法的第三方企业注册用户所发布的内容提供存储空间,融合网不对其发布的内容提供任何形式的保证:不保证内容满足您的要求,不保证融合网的服务不会中断。因网络状况、通讯线路、第三方网站或管理部门的要求等任何原因而导致您不能正常使用融合网,融合网不承担任何法律责任。

第三方企业注册用户在融合网发布的内容(包含但不限于融合网目前各产品功能里的内容)仅表明其第三方企业注册用户的立场和观点,并不代表融合网的立场或观点。相关各方及作者发布此信息的目的在于传播、分享更多信息,并不代表本网站的观点和立场,更与本站立场无关。相关各方及作者在我方平台上发表、发布的所有资料、言论等仅代表其作者个人观点,与本网站立场无关,不对您构成任何投资、交易等方面的建议。用户应基于自己的独立判断,自行决定并承担相应风险。

根据相关协议内容,第三方企业注册用户已知悉自身作为内容的发布者,需自行对所发表内容(如,字体、图片、文章内容等)负责,因所发表内容(如,字体、图片、文章内容等)等所引发的一切纠纷均由该内容的发布者(即,第三方企业注册用户)承担全部法律及连带责任。融合网不承担任何法律及连带责任。

第三方企业注册用户在融合网相关栏目上所发布的涉嫌侵犯他人知识产权或其他合法权益的内容(如,字体、图片、文章内容等),经相关版权方、权利方等提供初步证据,融合网有权先行予以删除,并保留移交司法机关查处的权利。参照相应司法机关的查处结果,融合网对于第三方企业用户所发布内容的处置具有最终决定权。

个人或单位如认为第三方企业注册用户在融合网上发布的内容(如,字体、图片、文章内容等)存在侵犯自身合法权益的,应准备好具有法律效应的证明材料,及时与融合网取得联系,以便融合网及时协调第三方企业注册用户并迅速做出相应处理工作。

融合网联系方式:(一)、电话:(010)57722280;(二)、电子邮箱:2029555353@qq.com dwrh@dwrh.net

对免责声明的解释、修改及更新权均属于融合网所有。

相关新闻>>

    新闻关注排行榜

    热门推荐 最新推荐

    热门关键字

    关于我们 - 融合文化 - 媒体报道 - 在线咨询 - 网站地图 - TAG标签 - 联系我们
    Copyright © 2010-2020 融合网|DWRH.net 版权所有 联系邮箱:dwrh@dwrh.net 京公网安备 11011202002094号 京ICP备11014553号