您现在的位置:融合网首页 > 云计算 >

英伟达Tesla助力华大基因绿色云计算

来源:驱动之家 作者:佚名 责任编辑:admin 发表时间:2013-06-24 17:04 
核心提示:基因组学数据的数据量需要在压缩技术方面进行更多的研究。按照这类数据的特点,采用以列为主的分块压缩方式,我们针对Tesla™ GPU设计了一组压缩算法,在保证压缩率的前提下极大地提升了压缩速度。

挑战

随着测序技术和基因组学的发展,基于基因测序的临床诊断和个体化医疗等实际应用离我们越来越近。然而,基因组数据呈现指数级增长,相应的数据处理与分析正面临着大规模数据和密集计算所带来的时间和成本上的巨大挑战,并影响着基因组学研究进程。面对日益增长的基因分析需求,如何解决大数据存取能力以及计算能力不足等瓶颈问题,成为当下基因组学研究和应用面临的一大难题。

解决方案

云计算被认为是解决海量数据处理的最佳方案之一,然而通用的云计算平台必须能够支持各类软件,只能选择兼容性最好的x86硬件平台,大规模的计算平台其成本和能耗较高。而基因组学分析涉及的计算类型较少,依靠NVIDIA®(英伟达™)Tesla™的全新硬件,可望用更少的硬件和成本达到同样计算处理能力,实现绿色计算。目前,我们在NVIDIA®(英伟达™)Tesla™平台上,设计开发了针对基因信息数据的高效压缩工具,同时针对造成分析瓶颈的计算任务,如序列比对、变异检测等基本工具,利用GPU技术进行加速,从而提高分析效率,并降低数据存储和计算分析的成本。

结果

基因组学数据的数据量需要在压缩技术方面进行更多的研究。按照这类数据的特点,采用以列为主的分块压缩方式,我们针对Tesla™ GPU设计了一组压缩算法,在保证压缩率的前提下极大地提升了压缩速度。以常用的FASTQ和SAM格式为例,相比使用gzip或bzip2压缩,压缩速度可达到10倍的性能提升。高效的压缩工具可以直接减少处理时间,间接提高数据传输效率,降低存储成本。

在基因研究和临床医疗应用中,序列比对和寻找基因变异是两个重要分析步骤。两者也是主要的计算瓶颈,特别在临床应用上具有更高的时效性要求。为此,我们借助NVIDIA®(英伟达™)Tesla™平台,开发了应用于序列比对的SOAP3/SOAP3-DP,以及分别用于个体和群体基因变异分析的GSNP和GAMA。

SOAP3/SOAP3-DP设计了新的索引数据结构,针对Tesla GPU架构做了充分优化,性能是其它主流软件的数十倍,并且具有更高的准确率和比对率。解决了基因研究中最基本的分析瓶颈,同时提高了后续基因变异分析的准确度。

GSNP与其前身相比,采用稀疏表达格式优化数据结构,同时运用Tesla™ GPU实现高通量数据并行,原来处理一个人的数据需要三天以上的时间,GSNP仅需2小时左右,从而使得个体变异检测初步达到快速临床应用的要求。

GAMA引入GPU的并行计算技术对多个位点进行处理,加速计算过程。五百人规模计算分析,用普通计算机需要超过4年时间才可能完成,如果将计算在多块GPU上并行进行,可以使计算时间缩短到数小时。这一效率的提升使得生物学家可以加快解析基因变异与疾病关系的步伐。

借助NVIDIA®(英伟达™)Tesla™平台,综合利用以上技术和软件,使我们当前的数据分析效率得到极大提升,同时,降低了计算和存储成本,特别是临床诊断治疗的时间成本。在NVIDIA® Tesla™平台支持下,我们正努力推动基因组学研究实际应用转化,为大众健康幸福保驾护航。

(责任编辑:admin)
    • “扫一扫”关注融合网微信号

    免责声明:我方仅为合法的第三方企业注册用户所发布的内容提供存储空间,融合网不对其发布的内容提供任何形式的保证:不保证内容满足您的要求,不保证融合网的服务不会中断。因网络状况、通讯线路、第三方网站或管理部门的要求等任何原因而导致您不能正常使用融合网,融合网不承担任何法律责任。

    第三方企业注册用户在融合网发布的内容(包含但不限于融合网目前各产品功能里的内容)仅表明其第三方企业注册用户的立场和观点,并不代表融合网的立场或观点。相关各方及作者发布此信息的目的在于传播、分享更多信息,并不代表本网站的观点和立场,更与本站立场无关。相关各方及作者在我方平台上发表、发布的所有资料、言论等仅代表其作者个人观点,与本网站立场无关,不对您构成任何投资、交易等方面的建议。用户应基于自己的独立判断,自行决定并承担相应风险。

    根据相关协议内容,第三方企业注册用户已知悉自身作为内容的发布者,需自行对所发表内容(如,字体、图片、文章内容等)负责,因所发表内容(如,字体、图片、文章内容等)等所引发的一切纠纷均由该内容的发布者(即,第三方企业注册用户)承担全部法律及连带责任。融合网不承担任何法律及连带责任。

    第三方企业注册用户在融合网相关栏目上所发布的涉嫌侵犯他人知识产权或其他合法权益的内容(如,字体、图片、文章内容等),经相关版权方、权利方等提供初步证据,融合网有权先行予以删除,并保留移交司法机关查处的权利。参照相应司法机关的查处结果,融合网对于第三方企业用户所发布内容的处置具有最终决定权。

    个人或单位如认为第三方企业注册用户在融合网上发布的内容(如,字体、图片、文章内容等)存在侵犯自身合法权益的,应准备好具有法律效应的证明材料,及时与融合网取得联系,以便融合网及时协调第三方企业注册用户并迅速做出相应处理工作。

    融合网联系方式:(一)、电话:(010)57722280;(二)、电子邮箱:2029555353@qq.com dwrh@dwrh.net

    对免责声明的解释、修改及更新权均属于融合网所有。

    今日头条

    更多>>
    关于我们 - 融合文化 - 媒体报道 - 在线咨询 - 网站地图 - TAG标签 - 联系我们
    Copyright © 2010-2020 融合网|DWRH.net 版权所有 联系邮箱:dwrh@dwrh.net 京公网安备 11011202002094号 京ICP备11014553号