分析至上 大数据项目部署的五大愿景
如果你正在尝试构建大数据应用或分析系统,你可能会清楚的意识到该领域缺少哪些功能。笔者将人们对大数据的愿景归纳为五大需求,分别是SQL(或SQL-like)分析、快速部署、高级分析、实时分析和网络分析选件。
好消息是人们正在努力应对这些问题,SQL分析选件就是其中之一。大批数据管理和数据分析专家们对SQL非常熟悉,自然想要利用SQL知识搞清楚Hadoop集群和NoSQL数据库中的数据。Apache Hadoop软件的发行商都在规划、测试,甚至已经发布了SQL(或SQL-like)分析选件,用于分析存在于Hadoop集群里的数据。这些发行商包括Cloudera、EMC、Hortonworks、IBM、MapR和Teradata等。在NoSQL阵营中,10gen公司已经对MongoDB的分析能力进行了改进,大数据厂商Acunu对Cassandra也做了同样的改进。
部署和管理Hadoop集群和NoSQL数据库对于大多数IT组织而言是一种全新的体验,但似乎每个软件更新带来的部署和管理新特性都能够让生活变得更轻松。与此同时,EMC、HP、IBM、Oracle和Teradata等厂商计划或已经提供了一些工具,旨在帮助企业进行Hadoop快速部署。其他厂商将重点放在Hadoop框架组件的使用,如WibiData,提供简化HBase的开源库、模型和工具。
收集和利用大数据的重点是进行预测分析和其他高级分析,进而得到更明智的商业决策。但是在数据人才短缺的今天,企业正在寻求一种更简便的方式支持复杂的分析过程。很多厂商和企业都在研究机器学习,这是因为它不依赖于专家,而是依赖数据和计算能力收集客户行为数据,并挖掘数据背后的商业模式。
大数据的3V原理的其中一个V是velocity(速度),但是很难用“实时”一词来形容Hadoop,其弊端在于MapReduce的分析方法。MapR和HStreaming等厂商开始为Hadoop增加实时分析功能,其他厂商可能会效仿,尤其是那些事件流处理厂商。
排在第五位的大数据愿景是更简便的网络分析。目前,企业友好型图形分析数据库和工具不断涌现,它们采用了很多与Facebook相同的真正大规模的技术。这里提到的工具和技术很少有30年以上的历史,不会像关系型数据库和SQL查询工具那样成熟。但是有明确的迹象表明,大数据管理和分析的痛点正在迅速缓解。
愿景一:大数据规模的SQL分析
通过很多关于大数据人才短缺的故事和报告,就可以得到这样一个结论:大数据领域最迫切的需求是了解数据类型的数据科学家,他们也知道如何通过编写自定义代码、MapReduce作业和算法在大数据中获取洞察力。但是,为何不让擅长关系型数据库、商业智能(BI)和分析工具的SQL专家处理更多繁重的工作呢?SQL专家的数量远远大于数据科学家,并且大多数SQL专家更急于扩大自己的职业潜力。
推动在Hadoop之上提供SQL分析能力,大数据的人才短缺只是其中一个原因。另一个原因是Apache Hive——Hadoop中的数据仓库,它提供SQL-like查询功能的有限子集,但是Hive是将SQL查询转化成MapReduce任务,这导致Hive的性能缓慢。
为了应对Hadoop之上SQL查询范围更广、速度更快的需求,很多相关项目和方案陆续发布,如Cloudera Impala、EMC Pivotal HD中的HAWQ查询特性、Hortonworks Stinger、IBM Big SQL、MapR支持的Apache Drill、Teradata SQL-H等。
即使是NoSQL阵营也在为更好的SQL-like查询功能而努力。去年10gen公司为其MongoDB NoSQL数据库新增了一个实时数据统计框架,该框架让用户直接在MongoDB中查询数据,而不需要编写或者运行编译的、面向批处理的MapReduce作业。Acunu公司也在做类似的工作,它已开发出一种SQL-like的AQL(Annotator Query Language)语言支持Cassandra查询。
SQL查询功能的发展仅仅是个开端。BI、分析工具和大数据平台自身分析系统的脱颖而出,如Datameer、Hadapt、Karmasphere和Platfora等,它们提供了Hadoop之上的分区查询、分析、数据可视化和监控能力。
愿景二:简化的部署和管理
包含Hadoop和NoSQL数据库在内的大数据平台一直在努力简化其部署和管理功能,每次软件升级都会带来新的管理特性和新的内置功能,例如10gen公司在最新发布的MongoDB中新增了内置文本搜索功能和预置监控功能。Hortonwork Hadoop发行版针对微软Windows的版本嵌入Active Directory(活动目录)、System Center和虚拟化技术,用以简化大数据的部署和管理。
在构建Hadoop集群的过程中,虽然没有太多硬件方面的抱怨,但是EMC、IBM、Oracle和Teradata等硬件厂商推出Hadoop一体机,使Hadoop的部署更快速、更便捷。商用硬件的成本很高,但是Oracle称如果算上每个组件的价格、配置和调整的时间、维护和升级工作、可以直接运行的Cloudera软件,以及Oracle NoSQL数据库,一体机的成本比自己部署价格更低。
真正复杂的Hadoop管理常常出现在软件层面,而非硬件配置。例如HBase——Hadoop架构中日益重要的NoSQL数据库,很多开发者认为很难在HBase中建模和分析数据。WibiData公司提供开源库、模型和工具,使HBase中的数据更容易存储、提取和分析。该理念是将HBase运行中的技术难点可重复化,因此在解决商业问题时节省大量工程师和数据科学家等人力资源,这一准则也可以应用于其他大数据平台。(责任编辑:韩杰)
- “扫一扫”关注融合网微信号
免责声明:我方仅为合法的第三方企业注册用户所发布的内容提供存储空间,融合网不对其发布的内容提供任何形式的保证:不保证内容满足您的要求,不保证融合网的服务不会中断。因网络状况、通讯线路、第三方网站或管理部门的要求等任何原因而导致您不能正常使用融合网,融合网不承担任何法律责任。
第三方企业注册用户在融合网发布的内容(包含但不限于融合网目前各产品功能里的内容)仅表明其第三方企业注册用户的立场和观点,并不代表融合网的立场或观点。相关各方及作者发布此信息的目的在于传播、分享更多信息,并不代表本网站的观点和立场,更与本站立场无关。相关各方及作者在我方平台上发表、发布的所有资料、言论等仅代表其作者个人观点,与本网站立场无关,不对您构成任何投资、交易等方面的建议。用户应基于自己的独立判断,自行决定并承担相应风险。
根据相关协议内容,第三方企业注册用户已知悉自身作为内容的发布者,需自行对所发表内容(如,字体、图片、文章内容等)负责,因所发表内容(如,字体、图片、文章内容等)等所引发的一切纠纷均由该内容的发布者(即,第三方企业注册用户)承担全部法律及连带责任。融合网不承担任何法律及连带责任。
第三方企业注册用户在融合网相关栏目上所发布的涉嫌侵犯他人知识产权或其他合法权益的内容(如,字体、图片、文章内容等),经相关版权方、权利方等提供初步证据,融合网有权先行予以删除,并保留移交司法机关查处的权利。参照相应司法机关的查处结果,融合网对于第三方企业用户所发布内容的处置具有最终决定权。
个人或单位如认为第三方企业注册用户在融合网上发布的内容(如,字体、图片、文章内容等)存在侵犯自身合法权益的,应准备好具有法律效应的证明材料,及时与融合网取得联系,以便融合网及时协调第三方企业注册用户并迅速做出相应处理工作。
融合网联系方式:(一)、电话:(010)57722280;(二)、电子邮箱:2029555353@qq.com dwrh@dwrh.net
对免责声明的解释、修改及更新权均属于融合网所有。