云计算环境下多副本管理综述(2)
目前,针对不同网络拓扑已有的副本创建策略,如表1中所列各种创建策略,其优缺点进行了对比.
1)无副本策略:
又称之为缓存策略,就是不产生任何副本.将所有的数据都储存在系统中的某个节点上,该节点可看作是该网格系统层次结构的根节点.在一定的访问模式下,测出各种副本策略相应的响应时间和带宽消耗,以无副本策略的参数值作为参照,比较其他策略的优劣.若其他策略产生的参数值都比该策略的参数值差,则不予考虑.
2)最佳客户策略:
该策略主要基于对历史访问记录的统计,在每个网格节点详细记录每个文件访问历史词组,这个记录列表详细描述节点对文件的请求次数和请求该文件的节点编号.
在该策略中,某节点在给定的时间间隔内检查其上是否有文件的访问次数超过事先给出的阈值,并找出访问次数超过这个阈值的节点,然后标识该节点为该文件的最佳客户,并在该节点上拷贝一个副本.
生成副本之后,清除该文件在所有节点上的访问记录,然后重复上述过程,产生下一个周期的最佳客户,这必然会在一定程度上提高数据的访问效率和减少带宽的消耗.这种复制策略的副本创建请求由服务端发出,在一定时候不能及时地反映客户端的需求,可能会造成客户端存储资源的浪费或者存储资源的不足两种极端.
3)瀑布式策略:
主要针对具有层次结构的分级存储系统,利用三级瀑布思想,系统中根节点的访问次数超过了一定的限额,就在下一层中寻找最佳节点创建该文件的副本,当下一层中对这个文件副本的访问次数又超过限额,最终在客户端创建了该文件的副本.这种复制策略能够比较合理地将数据分布在层次网格结构的各层节点中,最终实现系统负载的均衡性.应用到其他的类型的网格拓扑结构就有比较大的局限性.
4)普通缓存策略:
当有文件读写请求时,该用户节点就在本地拷贝一个副本.但是针对于容量很大的大文件请求,就需要客户节点有足够的存储空间,并且缓存数据的更新速度应该很快.这样就对客户节点的存储空间提出了很高的要求,它是以牺牲客户节点的存储开销以求系统的高效运作.
5)缓存瀑布式策略:
这是综合瀑布式策略和普通缓存策略的优点的一种策略,副本文件仍然在客户节点本地生成,Master将周期性地标识出热点文件,即请求次数超过阈值的文件,并按照级喷泉策略在最佳客户路径上生成各级节点副本.这样可以发现,用户通常就是网格中的叶子节点.网格中的任一节点均可以充当Master.
特殊的情况下,用户节点可以充当它的相邻节点的服务器.该策略合理地在各个网格节点中分布数据的同时,实现了客户端的快速访问,以开销大量的存储资源为代价.因此,采用该策略时应该权衡访问的速度和存储资源的开销.
6)快速扩展策略:
该策略将在从根节点到客户节点路径上的所有节点上拷贝副本.就是说当一个客户需要某个文件时,根节点服务器会将该文件的副本存储在到达客户节点所走过路径上的每一个节点上,从而达到数据快速扩展的效果.
该存储网格数据管理种策略在能够加快访问速度和减少带宽消耗的同时存储资源,对存储资源提出了更为苛刻的要求,在数据网格中每一个节点都应该有足够在数据访问速度和存储资源富余的情况下可以采用该种策略.
7)基于市场应用的副本创建策略:
应不同的需求产生不同的策略,扬长避短.如基于蚂蚁算法的文件创建.在考虑络带宽和磁盘读写速度等物理因素和存储代价和传输通信代价的同时,如何确定最优的副本创建路径.这里的最优策略可以是时间代价最优,花费代价最优和性价比指数最优.
在对等网络中,副本放置算法就是一个完全意义的NP.再如基于经济学模型的复制策略,按照反向拍卖协议确定副本创建位置及进行副本选择,它将数据传输时间作为拍卖的价格指标.该模型在评估数据复制价值时存在这样的问题:节点往往根据自身利益进行决策,因而不一定得到全局最佳效益.
1.2多副本定位技术
多副本定位技术要求Master通过用户递交的特定信息,如数据对象的名字、ID或关键字等,能够快速准确地在整个广域分布的系统内高效找到并返回数据对象的物理位置信息.不同网络拓扑结构也有不同的副本定位技术.
现在已经存在十分成熟的两种定位策略集中式资源定位和分布式资源定位.集中式资源定位是指系统利用一个唯一确定的目录结构作为索引服务器,目录中包含当前系统中所有共享资源的元数据信息,需要定位时只需到索引服务器进行查询.这种定位方法理解容易、实现简单、使用方便,但是其扩展性和可靠性较差,不适合大型系统,特别是大型的网格环境.
而分布式资源定位在系统中建立分布式的索引服务器,而非集中式管理数据信息,其定位方法也可分为多种,如基于分布哈希表的资源定位方法,通过对节点间拓扑关系以及资源位置的精确控制,可以保证系统中的资源一定能够通过某种特定的查找方法被找到,并具有较高的查询效率,其典型的应用系统包括OceanStore,CFS和Pastry等.
基于无结构的资源定位方法[73的查询多采用广播查询、随机转发和有选择性转发等查找算法.该定位方法无需花费很大的代价维护分布哈希表,但是其查询效率较低,且并不保证系统中的资源一定能够被找到,采用无结构资源定位的典型系统包括Gnutella,Freenet和Free Haven等.
在数据网格环境下,讨论最多的便是Globus提出的目录副本服务的副本定位技术和基于这种技术提出的各种改进算法,如Globus和欧洲数据网格项目联合提出的Giggle架构.Globus的副本定位采用类似于P2P中的集中式目录结构管理,实现简单,但扩展性、可靠性不强.
另外,欧洲数据网格项目组也曾提出的层次式副本定位策略,该策略中所有逻辑文件都在副本目录的根节点中出现,因此根节点将非常庞大,可扩展性、可靠性和查询性能都比较差.
后来Globus和欧洲数据网格项目联合提出的Giggle架构采用了一个通用的层次式副本目录结构,在具体应用时需要结合应用的具体特征设置参数的取值.通过改变参数的取值可以改变副本目录的结构和性能,这项技术得到了广泛应用.
可见分布式的副本定位方法SRB(Storage resource broker)、Globus这些著名的数据网格管理技术由于它们的副本定位都是采用集中式的目录,限制了系统的可扩展性和可靠性.而很多研究者也在这些的基础上提出了可扩展的分布式副本定位方法凹].力求将副本定位信息平均地分布在多个索引节点上,简单易实现且具备动态迁移和可扩展的特性.
1.3多副本选择技术
副本选择策略负责根据用户的要求选择最佳副本,不同应用所对应的副本选择标准不尽不同,可以是副本的响应时间、副本的可靠性以及访问代价等.由于实际应用中网格环境的动态复杂性,加之副本较多的情况下,影响副本选择的因素较多,往往是综合多种因素进行预测寻找最优解.
1)基于性能模型的预测:系统对性能要求十分高时,要通过为数据网格系统建立性能模型来对系统中副本的响应时间进行预测.实现预测的关键在于建立网格系统的性能模型并获取模型所需的物理参数.但它的缺点是需要访问大量底层物理设备的详细信息.
2)基于访问历史信息的预测:Master或者Slaves中保存副本访问的详细历史信息,以此来预测副本的响应时间.基于访问历史信息的性能预测的实现包括两个关键问题:性能度量信息的获取和基于度量信息的性能预测.在实际应用中,需要在度量信息量和预测的精度之间进行有效折中.
1.4多副本删除技术
由于副本数目可能由于访问量的减少而变得相对较多,或者副本过多引起网络访问不够通畅等原因,提出副本删除策略可以保证存储空间的优化,实现网络性能的提高.无论是通过用户通知的删除或者系统根据副本访问量的动态删除,都要在保证数据安全一致的情况下执行,这样可以提高存储资源的利用率.对于多副本的删除也有以下几种策略.
1)延迟删除:当删除一条被引用的数据时,可以利用该技术实现.原始数据被删除后,并不急于删除引用它所生成的副本文件,而是当再有数据要访问所引用文件时,再进行删除.但一旦副本数较多,或者有些资源不再被访问,此方法会造成存储资源的严重浪费.
2)线下删除:当数据涉及关联的入口数据较多,一旦执行起来会产生很大的系统消耗,就可以采用线下删除的方法,选择在系统负载比较低的时候触发任务.
3)不删除:如果对副本生命期限进行设定,在有效期内,我们并不消耗额外的系统资源去删除它们.但是随其使用频率或者动态策略的调整,可以对其有效期时限进行重新设定.(责任编辑:admin)
- “扫一扫”关注融合网微信号
免责声明:我方仅为合法的第三方企业注册用户所发布的内容提供存储空间,融合网不对其发布的内容提供任何形式的保证:不保证内容满足您的要求,不保证融合网的服务不会中断。因网络状况、通讯线路、第三方网站或管理部门的要求等任何原因而导致您不能正常使用融合网,融合网不承担任何法律责任。
第三方企业注册用户在融合网发布的内容(包含但不限于融合网目前各产品功能里的内容)仅表明其第三方企业注册用户的立场和观点,并不代表融合网的立场或观点。相关各方及作者发布此信息的目的在于传播、分享更多信息,并不代表本网站的观点和立场,更与本站立场无关。相关各方及作者在我方平台上发表、发布的所有资料、言论等仅代表其作者个人观点,与本网站立场无关,不对您构成任何投资、交易等方面的建议。用户应基于自己的独立判断,自行决定并承担相应风险。
根据相关协议内容,第三方企业注册用户已知悉自身作为内容的发布者,需自行对所发表内容(如,字体、图片、文章内容等)负责,因所发表内容(如,字体、图片、文章内容等)等所引发的一切纠纷均由该内容的发布者(即,第三方企业注册用户)承担全部法律及连带责任。融合网不承担任何法律及连带责任。
第三方企业注册用户在融合网相关栏目上所发布的涉嫌侵犯他人知识产权或其他合法权益的内容(如,字体、图片、文章内容等),经相关版权方、权利方等提供初步证据,融合网有权先行予以删除,并保留移交司法机关查处的权利。参照相应司法机关的查处结果,融合网对于第三方企业用户所发布内容的处置具有最终决定权。
个人或单位如认为第三方企业注册用户在融合网上发布的内容(如,字体、图片、文章内容等)存在侵犯自身合法权益的,应准备好具有法律效应的证明材料,及时与融合网取得联系,以便融合网及时协调第三方企业注册用户并迅速做出相应处理工作。
融合网联系方式:(一)、电话:(010)57722280;(二)、电子邮箱:2029555353@qq.com dwrh@dwrh.net
对免责声明的解释、修改及更新权均属于融合网所有。