您现在的位置:融合网首页 > 云计算 >

小议海量数据云计算创新

来源:腾讯大讲堂 作者:佚名 责任编辑:admin 发表时间:2012-05-11 15:14 
核心提示:以一页式快速配置开发为基础特点的海量数据云计算平台就应运而生了。该平台可覆盖80%以上的统计指标,充分结合灵活性和通用性,最大程度为数据分析人员提高开发效率的同时,完成海量数据的分钟级输出。

一,海量数据的运营压力

无疑,无线互联网终于迎来了属于自己的春天:无线互联网各种产品如雨后春笋般涌现,以手机QQ为代表的无线互联网产品迅猛发展;同时,无线网民数也出现激增,据粗略估计,国内无线网民数已达3.5亿。随之而来的,是服务于不同产品的运营分析压力和运营数据的暴发式增长。目前,无线BU日处理运营数据达10T,且涉及不同产品多维度复杂指标的分析运算,已经成为一头当之无愧的大象。如何让大象也能翩翩起舞,以最小的开发代价,实时准确地输出多维度的运营数据,是无线BU数据平台组需要解决的重要课题。

于是,以一页式快速配置开发为基础特点的海量数据云计算平台就应运而生了。该平台可覆盖80%以上的统计指标,充分结合灵活性和通用性,最大程度为数据分析人员提高开发效率的同时,完成海量数据的分钟级输出。

二,云计算平台的创新历程

如表一所示为业界通用的统计分布式解决方案。统计处理机到各业务机拖取日志,单独编写统计代码处理原始日志和数据,将统计结果注入数据库并展示。

优点:有利于完成定制化开发

缺点:通过编写特定代码完成统计开发的方式造成统计开发效率的低下、代码质量难以保证。

在无线数据暴发式增长的情况下,这样的技术架构已经难以支撑更高层次的运营分析。如何归纳提炼出通用性统计指标,复用代码,做到一次开发,多次利用,迅速快捷获得统计指标呢?模板化可配置的分布式运算平台成为必然之路。因此,云计算平台应运而生。

云计算平台采集用户通过配置页面填入的自定义信息,将其转变为xml文件,结合mapReduce计算模板,采用hadoop分布式运算技术,完成海量数据的可配置输出。其特点有:

一页式配置开发,提升数据分析效率

经过简单的配置,即可自动在数据库中生成相应计算结果。省去了烦琐的脚本编写过程。

以某产品的基础统计为例,神马采集、日志db配置,各种复杂计算逻辑、sql,原有代码为6千多行,至少需要2周左右的时间才能编写完毕,给开发和维护都带来严重的负担。而通过如图表3的配置,可全程通过配置实现零编码统计需求。开发人员实现登录用户数/登录次数/累计用户/新增用户/留存用户/活跃用户/有效用户,开发时间仅为30分钟左右,极大减轻开发人员的负担。

统计指标覆盖面广、扩展性强

云计算平台涵盖从常规指标、历史累计指标到用户健康度、用户分析类等不同层次的各种统计指标,已形成可不断扩充的统计指标体系。同时,统计维度还支持普通维度、cube/custom/rollup等复杂维度组合形式。

云计算平台的统计指标覆盖率可达80%以上。

可维护性高

有BUG!影响了指标输出!赶紧查问题吧!”这是统计分析人员经常碰到的场景。而现在有了云计算平台,一切变得不一样了!配置化的设计最大程度保证了代码质量,降低了人为编写代码的出错机率。有疑惑,检查一下自己的配置,至少95%的错误就可得到解决!

支持任意维度的组合计算

对任意维度(QQ号码、IMEI、IP)等可任意组合计算,得到统计结果。以下统计指标,可以通过一次配置全部完成。(注:以下数值均为虚构)

中间用户级汇聚文件接口自动对接应用系统

做数据分析时,我们可能会碰到这样的场景:计算出这个月的活跃用户数,并且将用户文件输出,以用作发tips推广用。在云计算平台,这一切都可通过以上的配置实现,不需要多次开发。且所有中间文件直接通过TDW,对接TA等公司级应用系统,可供下一步的分析处理用。

分布式并行计算,支撑海量数据的高效处理,统计结果可达分钟级输出

由多台处理机并行处理,可支持线性扩容,海量日志时的运行速度不再是瓶颈!

在云计算平台强有力的支撑下,每天T级(300亿条记录)的海量日志也可做到分钟级的输出!(注:以上数值均为虚构)

小结:云计算平台通过高度抽像归纳业务逻辑进行封装,形成通用计算模板,让开发人员释放出来做更有意义的统计分析,同时通过计算资源透明与共享,提高系统运算能力和可靠性,成为居家旅行杀人放火之必备良器。

三, 云计算平台与运营平台的紧密结合

试想一下,我们做运营活动时,总希望能够快速知道用户对活动的反应情况,以便迅速调整运营方案,达到最佳的运营效果。

在某产品的运营活动中,产品人员想向用户下发tips,以达到语音聊天的推广目的。但在推广过程中,产品人员有自己的困惑:在tips的接收人群中,有多少用户受到了骚扰,有多少用户有意愿使用语音聊天?我们的推广策略是否需要进一步调整?不用担心,有云计算平台迅速为我们得到分析结果!

经过简单的配置(耗时约20分钟),即可得到如下的分析数据:

骚扰!严重的骚扰!于是产品人员立刻改变运营方式,改粗放式运营为精准运营,只针对特定版本的活跃用户进行投放,被骚扰的用户比例立刻下降至2%!运营活动获得圆满成功

每天近10T的数据被运营人员握在手心,随时掌握第一手运营数据,还有什么不可能呢?

谁说大象不能跳舞?

(责任编辑:admin)
    • “扫一扫”关注融合网微信号

    免责声明:我方仅为合法的第三方企业注册用户所发布的内容提供存储空间,融合网不对其发布的内容提供任何形式的保证:不保证内容满足您的要求,不保证融合网的服务不会中断。因网络状况、通讯线路、第三方网站或管理部门的要求等任何原因而导致您不能正常使用融合网,融合网不承担任何法律责任。

    第三方企业注册用户在融合网发布的内容(包含但不限于融合网目前各产品功能里的内容)仅表明其第三方企业注册用户的立场和观点,并不代表融合网的立场或观点。相关各方及作者发布此信息的目的在于传播、分享更多信息,并不代表本网站的观点和立场,更与本站立场无关。相关各方及作者在我方平台上发表、发布的所有资料、言论等仅代表其作者个人观点,与本网站立场无关,不对您构成任何投资、交易等方面的建议。用户应基于自己的独立判断,自行决定并承担相应风险。

    根据相关协议内容,第三方企业注册用户已知悉自身作为内容的发布者,需自行对所发表内容(如,字体、图片、文章内容等)负责,因所发表内容(如,字体、图片、文章内容等)等所引发的一切纠纷均由该内容的发布者(即,第三方企业注册用户)承担全部法律及连带责任。融合网不承担任何法律及连带责任。

    第三方企业注册用户在融合网相关栏目上所发布的涉嫌侵犯他人知识产权或其他合法权益的内容(如,字体、图片、文章内容等),经相关版权方、权利方等提供初步证据,融合网有权先行予以删除,并保留移交司法机关查处的权利。参照相应司法机关的查处结果,融合网对于第三方企业用户所发布内容的处置具有最终决定权。

    个人或单位如认为第三方企业注册用户在融合网上发布的内容(如,字体、图片、文章内容等)存在侵犯自身合法权益的,应准备好具有法律效应的证明材料,及时与融合网取得联系,以便融合网及时协调第三方企业注册用户并迅速做出相应处理工作。

    融合网联系方式:(一)、电话:(010)57722280;(二)、电子邮箱:2029555353@qq.com dwrh@dwrh.net

    对免责声明的解释、修改及更新权均属于融合网所有。

    今日头条

    更多>>

    热门关键字

    关于我们 - 融合文化 - 媒体报道 - 在线咨询 - 网站地图 - TAG标签 - 联系我们
    Copyright © 2010-2020 融合网|DWRH.net 版权所有 联系邮箱:dwrh@dwrh.net 京公网安备 11011202002094号 京ICP备11014553号