您现在的位置:融合网首页 > 云计算 > 应用 >

云计算环境下架构Hadoop集群的数据分配方式(3)

来源:万方数据 作者:李珺 责任编辑:admin 发表时间:2012-02-27 19:16 
核心提示:3.算法实例 3.1实验环境 (1)硬件环境配里 根据上面分析的Hadoop架构体系,Hadoop集群可以分成两大类角色:Master和Slave,前者主要配置NameNode和JobTracker节点;后者配置DataNode和TaskTracker节点。例如在我们

3.算法实例

3.1实验环境

(1)硬件环境配里

根据上面分析的Hadoop架构体系,Hadoop集群可以分成两大类角色:Master和Slave,前者主要配置NameNode和JobTracker节点;后者配置DataNode和TaskTracker节点。例如在我们的实验中,配置Hadoop集群一共有4台PC,一台部署为NameNode和JobTracker,另外两台部署为DataNode和TaskTracker。使用的操作系统为Fedora 8Linux,Java环境为jdk-1.6.0-14, Hadoop版本为Hadoop0.20,并在各节点的//etc/hosts文件中添加节点IP及对应机器名。

如果该台机器作NameNode节点用,则需要在hosts文件中加上集群中所有机器的IP地址及其对应的机器名,例如在我们的实验中,NameNode节点的/etc/hosts文件内容如下:

202.115. 5 .0 lin-1

202.115 。 5 .1 lin-2

202.115. 5 .2 lin-3

202.115. 5. 3 lin-4

如果该台机器作DataNode节点用,则只需要在hosts文件中加上本机IP地址和NameNode节点的IP地址,如:

202.115 .5.0 lin-1

202.115.5.1 lin-2

(2)建立SSH受信证书

在Hadoop启动以后,Namenode通过SSH(SecureShell)来启动和停止各个节点上的各和守护进程,这就需要在节点之间执行指令的时候是不需要输人密码的方式,所以我们需要配置SSH使用无密码公钥认证的方式。

(3) Hadoop平台搭建

①将Hadoop部署至其它主机。

②在Hadoop上格式化一个新的分布式文件系统。

③在Hadoop上启动Hadoop进程。

④启动完成之后,运行ps-ef命令应该可以看到Hadoop上启动了2个新的Java进程(NameNode, JobTracker),同时,我们可以到Hadoop2等机器上用ps-ef查看,这些机器上应该已经启动了2个新的java进程(DataNode,TaskTracker)
(4)运行Hadoop程序

1)编写完成Map任务的程序,处理输人的KeyValue对,输出中间结果。

2)编写完成Reduce任务的程序,对中间结果进行规约,输出最终结果。

3)定义InputFormat和OutputFormat, InputFormat的主要职责是验证输人的类型是否符合配置类型;

OutputFormat的职责是验证输出目录是否已经存在和输出结果类型是否符合配置类型,如果都成立,则输出Reduce汇总后的结果。

3.2实验结果分析

本实验所用的节点均为同等配置,各节点名分别为master, slave01, slave02, slave03 , master作为NameNode和JobTracker也参与了计算,所以它也作为DataNode和TaskTracker,而slave01-slave03既作为DataNode也作为TaskTracker。在搭建的Hadoop集群系统上运行了本文开发的并行随机数发生器,实验中线性比作为一个重要的衡量标准,定义如公式3-1:

(1)单机计算数据规模较大时,算法性能呈现明显的下降趋势。随着输入数据的成倍增长,单机提取算法处理这些输入数据所消耗的时间以更快的速度增长。这是因为单机上随着输人数据的增长,机器上内存等资源消耗过大,致使机器性能明显下降,因而出现算法性能变“慢”的现象。

(2)输入数据量小时,Hadoop集群上并行化算法的处理效率低于单机上非并行化算法的处理效率。这是因为Hadoop集群的启动和交互需要消耗一定的资源。随着输人数据量的增大,Hadoop集群运行速度比单机运行速度明显加快。这是因为随着输人数据量的增大,集群启动与交互的消耗相对于实际业务逻辑的消耗比率大大降低,但是单机资源消耗过快,出现速度瓶颈。

(3)由此可见,MapReduce模型适用于解决具有高度内在并行性的数据密集型并行计算问题。用户只需分解出单个节点应完成的计算单元,按传统串行算法写出计算函数和数据收集函数,在Hadoop平台下就可方便地进行并行计算。Hadoop平台无需用户掌握复杂的消息传递机制的并行程序设计方法,显著简化了并行计算的软件开发难度,有助于普及并行计算。

4.结束语

本文介绍了云计算的定义和关键技术,对云计算环境下的MapReduce并行编程模式进行了研究,分析了MapReduce的编程思想,编程原理和步骤。研究了在架构Hadoop集群的数据分配方式,提出一种基于计算比率的数据分配机制,以提高MapReduce在架构Hadoop集群中的性能。研究为数据挖掘领域相关算法提供了可行的MapReduce化方案,实验结果证明了上述方案的切实有效性。

(责任编辑:admin)
  • “扫一扫”关注融合网微信号

免责声明:我方仅为合法的第三方企业注册用户所发布的内容提供存储空间,融合网不对其发布的内容提供任何形式的保证:不保证内容满足您的要求,不保证融合网的服务不会中断。因网络状况、通讯线路、第三方网站或管理部门的要求等任何原因而导致您不能正常使用融合网,融合网不承担任何法律责任。

第三方企业注册用户在融合网发布的内容(包含但不限于融合网目前各产品功能里的内容)仅表明其第三方企业注册用户的立场和观点,并不代表融合网的立场或观点。相关各方及作者发布此信息的目的在于传播、分享更多信息,并不代表本网站的观点和立场,更与本站立场无关。相关各方及作者在我方平台上发表、发布的所有资料、言论等仅代表其作者个人观点,与本网站立场无关,不对您构成任何投资、交易等方面的建议。用户应基于自己的独立判断,自行决定并承担相应风险。

根据相关协议内容,第三方企业注册用户已知悉自身作为内容的发布者,需自行对所发表内容(如,字体、图片、文章内容等)负责,因所发表内容(如,字体、图片、文章内容等)等所引发的一切纠纷均由该内容的发布者(即,第三方企业注册用户)承担全部法律及连带责任。融合网不承担任何法律及连带责任。

第三方企业注册用户在融合网相关栏目上所发布的涉嫌侵犯他人知识产权或其他合法权益的内容(如,字体、图片、文章内容等),经相关版权方、权利方等提供初步证据,融合网有权先行予以删除,并保留移交司法机关查处的权利。参照相应司法机关的查处结果,融合网对于第三方企业用户所发布内容的处置具有最终决定权。

个人或单位如认为第三方企业注册用户在融合网上发布的内容(如,字体、图片、文章内容等)存在侵犯自身合法权益的,应准备好具有法律效应的证明材料,及时与融合网取得联系,以便融合网及时协调第三方企业注册用户并迅速做出相应处理工作。

融合网联系方式:(一)、电话:(010)57722280;(二)、电子邮箱:2029555353@qq.com dwrh@dwrh.net

对免责声明的解释、修改及更新权均属于融合网所有。

今日头条

更多>>
关于我们 - 融合文化 - 媒体报道 - 在线咨询 - 网站地图 - TAG标签 - 联系我们
Copyright © 2010-2020 融合网|DWRH.net 版权所有 联系邮箱:dwrh@dwrh.net 京公网安备 11011202002094号 京ICP备11014553号