上海卫生局信息中心副主任谢维:云计算和健康云
由中国电子信息产业发展研究院主办,中国经济和信息化杂志社承办的《智能交通与“医疗云”》现场会于今日在成都举行。上海市卫生局信息中心副主任谢维在大会做了重要致辞。以下是文字实录:
谢维:感谢主办方邀请,也感谢主持人介绍。我介绍的题目是云计算和健康云,我起这个名字也花了很多脑筋,觉得也很困惑。因为主题是医疗,但是我们把这个作为一个事业来做,叫做医疗卫生服务业,更倾向于叫健康业,移动是一种手段,不管什么手段下,都要形成一个模式。在做这个PPT之前我也很纠结,第一稿的题目是健康云和BIG DATA,因为行业不太一样,大家对云的了解不太一致,我上去就把区域健康云讲得头头是道的话,大家对基础理念都不同的话,很难形成共识。所以想来想去要回头想一下。我讲的有两个理念。一个是云计算,一个是健康云。
首先什么是云计算,怎么做云计算,为什么用云计算。健康云同样的道理,为什么用云,怎么用云这几个框架。在介绍云计算的时候,我相信大家都听过这个词,非常热。今天很高兴听到一个,云计算的版块大涨,逆势而涨。不管怎么样,大家对云计算的理解不太一致,在讲这个之前,我有三个问题提给大家,希望我讲完之后,大家对这三个问题有很好的回答。第一个问题是虚拟化是云计算吗?第二个,终端应用是云计算吗?第三,云和云计算是一回事吗?
第一个,大量虚拟化的东西在说,好像给我的感觉是你做云计算不做虚拟化是瞎扯。第二,终端应用的云计算,医疗行业最常用的应用,信息化方案中,基层卫生信息化建设,我们底下老早就有云了,你看在社区卫生服务中心有一台服务器,我装一个端就能用吗?你搞来搞去搞什么啊。第三个,就是大家慢慢想的问题。我们还是回到整个主题来,什么是云计算。
我用一个概念来解释现在的现状。云计算出现的概念很早,今天上午陈主任,也是工信部的专家博士,他也是这个概念,我比较同意他的概念,整体来说还是从云里雾里到人云亦云。我自己都觉得很困惑,我自己搞云计算搞了三四年了,我自己也挺糊涂,非常需要大家来清晰梳理到底什么是云计算。讲云计算,首先要讲云计算的故事和历史,没有这段历史来看,大家很难理解突然云计算就冒了出来。这个故事是1997年,就是GOOGLE的两个创始人,这个概念是GOOGLE提出来的,之前都是网格计算、分布计算等等。他们读博士生二年级的时候,大家对网上检索顺序很是不满意,当时的方法是出去的词汇、累计数多就排在前面,比如奥运会,我写篇文章,一百个奥运会词,我的排名一定排在第一。这显然不符合需求的要求。他们俩当时和他的导师说,我现在想做一个东西,来实现对所有世界上的网站进行快速检索和排序,97年的英特网,虽然已经有了,但不是那么发达,他的老师说,算了吧,这个命题太大了,你先在斯坦福里面先做掉吧。他说肯定要花很多钱,要买庞大的网络教学社会,这两个穷学生说,我们不用,我们用一台普通的PC把这件事儿干成。一年后他们干成了这件事情斯坦福大学里面全部完成了。他们就问EMC的老板,进一步发展,把美国所有网页都接下来,进一步发展上市了,目前我们知道GOOGEL的主机数在几千万台。怎么理解这个概念?下面继续讲。讲到云,肯定要看一下这个图,我们叫做GOOGLE盒子。核心是什么?我用一千台普通的PC,代替一台大的机器,效率还要高。集装箱里面插一千片,一个集装箱一个集装箱堆叠起来。再回顾来说,云当时产生的主要原因是什么呢?主要是数据海量爆炸。要求我们大存储和大数据处置能力非常高的。所以要实现这个目的,我们传统的技术路线,如果大家是IT业内人士的话,一定要知道传统的技术路线是什么呢?一定说OK我要干一件事情,要部署我的环境,环境怎么建呢,要买台服务器,然后要网络交换设备,然后要买存储,一定是这样搭建,这是传统的概念。随着数据量增大,数据计算量增大,一台机器不够,买台小型机,小型机不够大型机。显然每一个社会人,对数据的要求,对计算的要求越来越多,这样的方式该怎么解决?我们不可能每个人都碰到大型机这样的东西,投资是非常贵的,并且运维成本非常贵。一定要用别的方式解决大存储、大计算。包括分布式计算、网格计算等等东西,这些路线无外乎都为了解决大存储、大计算。当时他们做的时候,是把他们互联互通起来,实现对数据存储以及大的计算的问题,云刚刚诞生的时候,总结的特点是什么,我来准确说云计算的特点是什么呢?就这几条,一要存得很多,第二要存储空间还能扩,第三我能算得很快。第四,我要便宜。第五,稳定性要好。这是最初的五个概念。
云计算进一步发展之后,现在目前的特点就是这五个特点,第一是大规模,它的数据节点一定是大。第二是可伸缩,什么是可伸缩呢?今天可以装五百个,明天可以装一千个,后天变成六百个。第三个是高容错,坏几台机器不要紧。当年搭小平台的时候,平均每天坏七台,在机器坏的时候,数据不丢,算法成立,还能进行大计算。第四是高冗余,数据要保障安全,通胀是靠灾备中心完成。第五是高稳定,数据不会几个机器坏了,几个磁盘坏了导致丢失问题,还有就是系统要有很高的稳定性来运行它。实际上我还写的第六天,今天不想讲,有很多大厂商也是我们的朋友。还有就是一定要便宜,不便宜不是云。
我稍微总结一下目前对云的定义和云计算的定义来说,有好几个方向来看,第一是用户效益角度看,什么是云?我拿到一个数据的存储服务和计算服务,就像取水、电一样,很方便。谁都能拿下来,这样用户效益角度来诠释到底云是什么东西。第二是从技术角度来阐述到底什么是云计算,我们从两个体系,一个是基础,一个是系统。云计算发明出来以后,基本上确定了它的几个核心要素,第一个来说,我们叫分布式存储,第二个来说,我们叫分布式计算,第三个来说我们就是集群。从GOOGLE发展历史来说,提了三个很关键的词,大家研究云计算,不看四篇论文肯定不懂云计算。不管怎么说,技术上面来说,无外乎有些技术,都是围绕云计算诞生的技术,这些技术几十年前就有,并不是现在发明了新技术,云计算不是这个东西,轮回情况又发生了。第三个从商业模式来阐述,什么是云计算,就是按需收费,存了多少数据,流量是多少。第四是从管理运营角度阐述,服务模式上改变。怎么样交付这个东西,怎么样使用这个软件。我简单总结四点,大家可以总结更多更多。云计算是非常大的颠覆,颠覆了传统的技术角度,也颠覆了服务模式。所以我们要紧跟云计算步伐。
准确来说,云计算是经过商业包装的名词。当初定义的名字叫超大规模的、可扩展的、低成本的但是高可靠性的服务器集群系统。GOOGLE市场总监觉得这个词没办法看,所以发明了云计算这个词。
什么是云计算,狭义理解就是把一堆廉价的PC捆绑在一起,统一管理,使用起来如同一台超级大型机一样。我再解释一下,云计算从技术角度来说,50年前或者七八十年前就有一个派别分出来,现在所谓的PC机,或者服务器,基本上都是图灵机,图灵的算法是按顺序来排序的算法,其实在当年还有一个非常著名的算法,是专门做并行计算用的。但是没有人去研究这个事情。几十年后的今天,大家发现一定要做并行计算,分布计算。它实现了分布式集群,超大规模的集群实现。说到这里,我再给大家举个例子,现在很多系统都是靠一台庞大的主机带起来,然后靠一个关系型数据库服务,我们知道业界甲骨文数据库是优秀的数据库,可以做集群。但是它非常贵。你如果增加五台小机绑定在一起,它的效率和你的投入完全成反比。所以主机型服务模式存在很大的问题,带得动那么大的数据吗?带得动那么多的计算吗?为此才诞生云计算。云早晚要变成主机服务,永远这种轮回还会出现。
下面点了一下,IOE面临的挑战,IBM、甲骨文、EMC。但是并不妨碍我们在做一些云的探索。IOE为什么面临巨大挑战,就是因为云集散本质可以用廉价PC搭起来,这种情况下,我的大存储还要买吗?我的小机、大机还要买吗?我的关系型数据库还要买吗?一定面临巨大挑战。但是这些公司非常了不起,他们快速转型。
我们知道云计算有IAAS、PAAS、SAAS几个概念的解释。我个人理解,叫做云和云计算两个层面。云是干什么?说白了,云计算是要在云上面的计算。云是搭建、部署、使用、运维的。这些都是建云。第二个我们要搞计算,云计算最适合的场景是大数据量的处理。特别我个人感觉,云计算不太适合在事务性的业务处置,格式化程度、规范化程度相对要低一些,效率要低一些。大数据处理是最大的特点,你的数据量不达到几个T以上,上云计算,我个人觉得意义不大。现在IT成本降得很快,关系型数据库比较买得起的。用传统的方式还是可以的。换一种方式说,一个东西都有它适合的地方。所以什么时候选择云是非常重要的事情。比如我在信息中心工作,并不参与集成工作,但是对我的主要工作是什么呢?就是规划,第二就是技术选型,到底帮助政府做这件事情的时候,什么样的技术是靠谱的,就是这么一个意思。
我再进一步解释一下,从各个角度看云的产生。我个人是这么理解的,云是信息资源的重组新方式。过去我们有服务器、存储一套,过去是死的,永远都是规律的。比如申报发改委课题的时候,发改委项目的时候,第一句话就是你的并发多少等等,现在在云计算中这些值很难算。我们说主机无外乎是CPU、内存、硬盘这些东西组成的,还有一些IO的东西,我们怎么样重组它,实现它的最高效益,我们现在把一台主机,32核的合在一起,它是一种重组方式,按CPU充足的,然后内存再合起来,虚拟化干什么事情?我能把CPU拆掉,你想要多少,给你多少。这是虚拟化干的好处。进一步来说,数据的重组,过去的数据存在庞大的数据库中,现在这些数据是不是存在一个点上?是不是存在一千个点上效率更高、更可靠呢?一种方式是我重组成一台台小的机子,然后把这些节点连起来,每一台小的机,全套都有,内存、CPU都有。还有一种方式,我干脆不要那么麻烦,买廉价PC,把它重组在一起,多种重组方式造成无限的变化。
总的来说,云计算是重新诠释了解构和重构的老话题。现在我们已经形成固有规律,主机加存储、加应用的模式。主机是IO、内存、CPU组成的,信息系统在一个点上提供中间服务的,我现在放在一百台上,这是从另外一个角度看它,在云计算中,当前主要的技术热点,我写了一些东西,我们知道做大规模的云计算,不说别的,虚拟化是另外的含义,非常了不起的事情。也就是说和大家应用有关的,从应用角度来说,主要有这几个核心的技术,第一个是NO—SQL数据库,就是不完全是SQL数据库。有很重要一个表。第二个叫MAP—Reduce框架。每个点上算完了结果要回来啊,然后合成一个。所以怎么样实行天然的并行计算,就是靠这个框架来的。第三个是DFS,就是分布式文件系统,文件要存在一千个点、一万个点上,而不是存在大存储上,大存储上还是有存储的好处。第四个,就是Search engine。基本上简单介绍了云的东西,我再简单归纳一下,什么是云,什么是云计算,它是怎么来的,将来朝哪里去。
第二,为什么要用云,我觉得永远是需求驱动。不是国外都在搞云计算,我们一定跟进,管它懂不懂,我们一定要上。这是根据需求来的。首先是社会需求增加,首先信息服务成为巨大的产业,今天上午听了很多报告,赛迪的报告非常好,我记得是十万亿这么高的服务价值,所以我们需要一个社会需求在增加。第二,我们信息时代的特征,我们大网络,包括宽带网络,工信部的领导也说,特别是互联网的出现,有大量的数据出现。第三个是行业发展需求,对我来说是卫生行业,卫生行业中,比如业务管理、决策、咨询行政一系列的要求,都要求你必须具有海量数据,具有广泛计算才能了解。比如老百姓都在想什么,这是舆情系统。一系列系统都是大数据,放传统的数据库中是算不下来的。比如现在业界来说,DB和甲骨文是两大好的数据库,在没有很好索引的情况下,你要检索出大量数据。你们上百度、上GOOGLE的时候,它出来的速度有多快,600毫秒。用传统的方式,如果不用庞大计算集群做的话,你永远做不到这个数字,一定要在20秒以上,20秒是很多人忍受不下来的。将来的信息爆炸是一定存在的,这么大的信息、这么大的情况下,一定要存好它,是指存取服务,存进去能找回来,当然了我们还是希望低成本、易维护。
在这种情况下,各大厂商也跟进很厉害,比如IBM、甲骨文去年发布了NO—SQL数据库。现在亚马逊搞得非常好他们商业模式逐渐成熟。
还有阿里云、盛大云已经出来了,这主要是主机服务。阿里巴巴我们知道是全世界最大的B2B,阿里巴巴是B2B的,C2C的,它是最大的网站。你想它每天交易量有多少,有多少数据要存,所以阿里巴巴和淘宝当初和LE是签过协议的,特别是甲骨文,每年据说是三年内几千万级付进去,买一个全县。这样的话运维非常贵。第二来说,阿里巴巴养了大概50个管理员吧,非常花钱。但是阿里巴巴准备开始去LE,准备用最便宜的东西搭,数据库用开源的。其他的都走到NO—SQL数据库上去,全面要去LE,那是一件大的事情,全世界都是一件了不起的大事情。
最后一个事情来说,怎么做云计算,核心想一句话,我的云、我做主,换言之,大家要清楚自己干什么,千万不要人云亦云,那就花钱见效不大。第一个,如果大家有机遇,还是要深入理解云和云计算,到底是怎么回事。第二是需求驱动,到底我要干什么,建好这个云之后,谁会得利,投入产出是否合理。我有没有能力规划一个云,建设指导运维这个云,这些基础要保证。你可以说我请一个了不起的团队帮我做云计算或云,但是做完这个之后,谁来用。云的商业模式到底怎么走法,我要建一个云,特别私有云,谁用就不说了,我有没有把这一堆说得清楚。如果没有一支技术队伍,很难。表面说这个已经云了,容易贻笑大方。第三个事情叫因地制宜,技术选型非常重要,干什么事情一定要搞清楚什么技术放上去最好,什么技术放上去可能不理想。我个人认为庞大的系统中,一定是混搭的,根据需求走。我比较倾向于生产性交易性系统,云可能能满足。大家要注意,当前云计算不是成熟,大家上去是不断探索,我们装了一台40个虚机的云天天都在调参数,不是说这个东西多难建,不是说云技术一定要比传统技术高明,我第一次学习云技术,比传统技术学得快。云就是云,是两老技术路线。并不是说云不能独立学。这还是需要逐步完善的事情。GOOGLE也是天天改良,亚马逊也是天天改良。我在单位里主要负责投资,比较关心,害怕让领导吃药。最后一点,一定要有包容心,因为太多的效率型的了。一个远程的端,它叫云吗?从传统技术来说,一定不是云,可以转化为云服务,是服务的方式推出的,可以叫云吗?也可以叫云。这种情况下大家要有包容心,要充分认识到别人到底想干什么,是不是我投资完了以后,确实取得这个效益,管它是什么,都是好的。要有包容心是做很多细节的时候,正因为市场不成熟,商业不成熟,有可能失败。第三个,一些大厂商聚集了很多优秀工程师在工作。
整体来说希望有这几个步骤,一定要充分的论证和规划。第二要明确目标,第三是现实存在的需求,不是说将来会怎么样,搭个云将来怎么怎么样。将来这个事情比较讨厌,所以大家一定要认识清楚。但是并不是说不能尝试。再下来尽量采用成熟技术,关键要人才和队伍是非常重要,你没有人才队伍,规划也好、运作也好,一切问题都出问题。所以只敢说是尝试性做一把,真正要做成一个大家离不开的服务,一定需要大量的投入,所以谨慎是第一的,不反对有大投入,这个云一定要大投入,但是谨慎是可以的。我可能比较小家子气。再下来,我们一定要有事前、事中、事后,做出来这个东西在云的架构上,真正产生效率。从用户角度来说,我根本不关心你用什么技术,我只关心我的效率好不好,比如查询一个网站,一秒钟出来。
前面我就把整个云的基本的想法和框架讲了一下,也有很多东西很多同志有不同意见,也欢迎大家批评指正。
下面讲一下健康云。这个事情比较难讲,因为信息化是国家鼎立推动的事情。从国家卫生部角度来说,推出一个重大的工程,叫3521工程,3是三级平台,5是公共卫生、医疗保障、药品、公共服务、综合管理。2是两大核心数据库,电子病历、电子档案。1是高宽带网络。3521工程,希望实现信息化整体面貌。这里要阐述的健康云,在这个情况下,给大家谈一下我个人心得。在上海的经验来说,卫生信息化它的应用体系主要分成三大类,一个叫点的应用,一个叫线的应用,一个叫面的应用。点就是在机构内部它的各类生产系统,互联互通也好,没有联通也好,自己维护自己的整个业务和管理需求,这样的系统最常见是医院信息系统,好的医院信息系统几十套是很正常的,中间有小的联动。但是总体来说,不出医院围墙。第二是线的系统,从管理机构直穿到底的,从中央到底下的县,这样一个系统很多,比如工商税务。我们一直说防止孤岛,避免烟囱,但是我们还是要造孤岛、还是要造烟囱。面的系统是什么呢?我们着力打造实现点线互联,点点相连,线线互通的系统。横向到边、纵向到底的系统。实现面的东西,是区域信息化为核心的,这个主意比较烂,在这个问题解决不好的时候,矛盾就环节掉。
回过来回到健康云上,为什么做健康云,首先我认为是恰逢其时的云,卫生信息化的趋势和特点是什么,首先是区域化,第二是系统之间进行整合,数据之间进行整合。第三是要形成跨部门、跨机构、跨专业的协同服务。第四来说,它有海量数据。我举个简单例子,比如说上海市,比不上四川省,门诊量是两个亿。再下来说,业务的逻辑复杂多点,业务逻辑总不稳定系统就很难造,综合这些情况,怎么来解决它,这是国家发的健康档案的图,给大家看看,底下都是独立的系统,最后形成一个庞大的数据库,进行协同服务和交换服务,就是这么一个过程。
我们整个基础方案中,应用云有什么好处?第一,应对卫生服务海量数据和大并发的需求。第二,我们系统架构可发展可伸缩能力。现在可以满足满足民生为主,领导要求很多,你肯定架构要适应性强。再下来来说,提高各类应用系统满足更光满的服务的需求。第四是应用数据结构变化的适应性需求。最后,处理卫生服务大量数据非结构化问题。云在区域卫生信息化特别适合,云落地卫生特别靠谱,其他行业不太了解。
紧跟来说,我们怎么样做健康云,第一句话是由共享做起,首先是数据共享,我说一个本源性问题供大家思考参考。不管现在是不是在信息时代,哪怕在鸡毛信时代,我们信息是怎么传递的,或者传递的本源性是什么。我个人思考是这样,我们依托交换信息,达到信息共享,并且实现用信息共享进行协作做一件事,所以核心就是交换是手段,共享协同是目标,这是信息出现网络时代最大的特征,我个人感觉。我觉得现在目前首先是共享。第二来说是协同,要做到共享协同,不交换是不行的,在共享和协同上面,我更倾向于先走共享,因为协同牵扯到管理、业务,一系列问题。首先大家看到数据,然后再干什么活。包括转换医学,还有个叫上下文的感知,有点像物联网的那个比较时髦。要做好健康云,我建议实施步骤是这样,首先是总体规划,分布实施,统一认识、做好试点,全面云方案和路线要结合。第四来说,做好这几个重大层面,我们叫做POS层,第二是平台层要做好,第三是综合应用层做好。
这里面还是给大家讲一点实例,我们怎么来开展云计算,在卫生体系具体阐述一下。我们知道云框架建设之后,它天然具备并行处理能力,第二大计算能力,第三是大数据存储能力,我们充分利用好这三大能力。首先来说要做好这件事情,这一轮健康档案工程,特别是存储这个事情,大数据、大并发、大计算,刚好来做它。首先把数据采来,采来的数据整合好之后,形成一个一个人ID的健康档案,这个健康档案所有人都能看到,就是干这个事。从云的角度来说,五个层面做好,第一是基础硬件层,数据采集层、数据管理层、数据服务层。我们整个把系统分成这几个,我们也用了操作系统、集群监控,因为是试验、因为是科研,所以还是有点复杂,我们做了N台虚拟机,两台管理机,准备再做买普通PC,实现普通PC和廉价虚拟机混搭成混合云,在上面实现云的监控和管理,后面监控管理软件是非常非常难的,HP、思科,卖这个软件都是上百万,非常贵,我们也靠优秀工程师做一套软件,做到管理级的,是非常不容易的。上面要实现快速切换、无缝扩容这些都要做到。在上面来说,下来数据怎么分布,怎么算这些问题重点是几个,第一是分布无线系统。第二是个是NO—SQL的数据库。第三个是分布式框架。将来还能实现图象识别,这是算法问题。为什么加一个SQL适配器呢,主要是考虑现在SQL工程师太多了,云工程师太多了,必须把底层的东西分配成SQL适配器,后台自动变成NO—SQL存储的函数。目前大概能做到5%,它的SQL语句要做到很不容易的。在这里面来说,重点是实现几个,第一个是分布节点形成,第二是分布节点互联,第三是虚拟化和资源池化。虚拟化可能是错误的认识,但是我觉得是有道理的认识,我个人认为虚拟化是手段,它的目的是实现资源池化,我们说信息有很多资源,有CPU资源、有内存资源,有缓存资源,还有存储资源,包括网络的,端口的很多资源。这些资源池化是目的,不管是小机上,还是PC上,还是服务器上。一定要有办法把它池化掉,像一个池子一样。所以虚拟化更倾向于一种手段,这里面包括CPU、内存、网络存储这些东西,实现信息资源池化,不是硬件层、网络层、操作系统层我们更希望将来数据要池化。数据采集层、数据库结口、适配器、爬虫。数据服务层上要做很多工作,这是最难的。目前我们的水平是八亿B数据,五百个并发,前台一秒钟看到。顺便说一下,上海正在做信息化工程,每天数据是750万笔,年底前到1200万笔。所以不靠云,我们觉得走不下去了。我阐述的就是这些,如果大家有问题,可以再问。谢谢大家。
(责任编辑:admin)- “扫一扫”关注融合网微信号
免责声明:我方仅为合法的第三方企业注册用户所发布的内容提供存储空间,融合网不对其发布的内容提供任何形式的保证:不保证内容满足您的要求,不保证融合网的服务不会中断。因网络状况、通讯线路、第三方网站或管理部门的要求等任何原因而导致您不能正常使用融合网,融合网不承担任何法律责任。
第三方企业注册用户在融合网发布的内容(包含但不限于融合网目前各产品功能里的内容)仅表明其第三方企业注册用户的立场和观点,并不代表融合网的立场或观点。相关各方及作者发布此信息的目的在于传播、分享更多信息,并不代表本网站的观点和立场,更与本站立场无关。相关各方及作者在我方平台上发表、发布的所有资料、言论等仅代表其作者个人观点,与本网站立场无关,不对您构成任何投资、交易等方面的建议。用户应基于自己的独立判断,自行决定并承担相应风险。
根据相关协议内容,第三方企业注册用户已知悉自身作为内容的发布者,需自行对所发表内容(如,字体、图片、文章内容等)负责,因所发表内容(如,字体、图片、文章内容等)等所引发的一切纠纷均由该内容的发布者(即,第三方企业注册用户)承担全部法律及连带责任。融合网不承担任何法律及连带责任。
第三方企业注册用户在融合网相关栏目上所发布的涉嫌侵犯他人知识产权或其他合法权益的内容(如,字体、图片、文章内容等),经相关版权方、权利方等提供初步证据,融合网有权先行予以删除,并保留移交司法机关查处的权利。参照相应司法机关的查处结果,融合网对于第三方企业用户所发布内容的处置具有最终决定权。
个人或单位如认为第三方企业注册用户在融合网上发布的内容(如,字体、图片、文章内容等)存在侵犯自身合法权益的,应准备好具有法律效应的证明材料,及时与融合网取得联系,以便融合网及时协调第三方企业注册用户并迅速做出相应处理工作。
融合网联系方式:(一)、电话:(010)57722280;(二)、电子邮箱:2029555353@qq.com dwrh@dwrh.net
对免责声明的解释、修改及更新权均属于融合网所有。