邬贺铨:数据挖掘是物联网领域被忽略的重点(2)
还有根据手机在马路上走的运行速度可以判断这条马路是不是堵,实际上这些都是可以挖掘的数据。
3000亿美元,美国保健的年度潜在价值,相当于戏班言年度医疗保健开支两倍。2500亿欧元,欧洲公共管理的潜在年度价值,比希腊GDP的两倍还多。所以世界经济论坛上大数据就是新财富,大数据的价值堪比石油。
当然了,要挖掘大数据不是那么容易的事,首先要进行数据管理,数据来自不同的地方和不同标准,数据量的大小、结构形式、实时性都不一样,会增加采集、编索与整合的困难,需要对传统的数据传输工具ETL无流程进行重新设计。
数据存储,传统的集中式数据库、数据仓库系统已经不能有效的处理大数据的存储和分析,需要分布式处理,Hadoop就是分布式结构化数据存储方案。
数据挖掘,为了处理具有高维特征的图像等多媒体数据,将高维数据看成位于一个相对低维子流形上,利用流形的性质将数据降维后度量与处理。
总的来说,物联网也好,智慧城市也好,数据挖掘是重点,今天我看到无锡这个展览会,我们很多都关注数据感知、应用,实际上几乎没有看到数据挖掘,没有看到智能决策,实际上这是需要智能决策的。首先在数据收集层不仅仅是收集传感器的数据,需要手机政府和市民的数据,才知道这个时候这个地方发生了什么,然后才对得出传感器的数据有一个合理的解释。
获得这些数据以后,不是简单从数据分析,需要建立一些模型进行仿真,得出的结果需要有可视化的表现,甚至要增强现实。
另外是不是发布?是不是在发布之前进行仿真?我发布之后有什么样的后果?这都需要在数据挖掘上做的。
比如说蓝藻爆发监测模型。通过传感器捕获太湖水里的成份,我们根据经验可以知道,蓝藻的发生强度跟溶解氧有比较高的相关程度,跟水温有比较高的相关程度,跟电导率有比较高的相关程度,但跟氨氮、PH值、硝酸盐没有这么高,这些可以作为参考。但仅仅这些还不够,还需要图像,根据视频结果,一起来结合分析,才有可能得出是不是会有蓝藻爆发的结果。
而且我刚才说了,不仅仅基于传感器,还基于人工采集的数据,基于卫星遥感的数据,通过多元的数据收集,才能保证确认这个事件的可靠性。收了这些数据以后,需要有数据湖泊模型,通过跟历史的比对,进行分析挖掘,得出结果以后进行网络发布,所以这是一个复杂的过程,我们需要合理的制定感知数据的存储期。
我们城市有大量的摄像头,很多城市提出来存三个月,那几十个摄像头存储这是需要非常大的资源,这就需要压缩去掉重复用于的数据。比如关注某个仓库有没有异常事件,那绝大部分是没有人的,这段可以压缩掉。而且要坚固历史数据和新数据,提供一个使数据精度随时间逐渐降低的数据老化方法。另外存进行还要考虑以什么样的规律挖出来。
数据的隐私和保护也是非常重要的问题,这里有技术性问题,一些数据可能需要加密,这要分配密钥,而加密对于传感器来讲需要采用高能效的加密算法,当然还有可介入性认证,可信性认证、数据完整性认证、隐私增强技术和身份管理等等。
法律上规定有些数据必须开放,老百姓也能看见。还有责任性、数据拥有权。从经济角度要有行为规范,为了商业利益也要有隐私保护。在社会伦理上要保证公众有知情权、保证消费者有权利,保证消费者的主张。
数据访问认证与安全管理有网络访问控制、网络数据保密、网络数据完整性、网络可用性、网络不可否认性等等。
另外在大数据的挖掘里头很重要的一点,要解析非结构的信息。文字信息我们比较好过滤,有一个关键词就可以选择了。有一个小企业,它做不到每个员工一人一台电脑,很多时候是两三个员工一台电脑,有一个员工觉得很不方便,就向领导发了一个短信,他说我申请一台独立电脑。计算机一分析“台独”,实际上计算机本身没有这个智能,它需要上下文关联,通过工具找出真正的含义。把复杂的、模凌两可的矛盾的数据导出可理解的内容,这就需要进行大量的解释。
另外大数据的量非常大,我们不能等它存在计算机数据库里再调出来分析,我们需要在一边输入,一边分析。过去分析是把数据带进程序,现在我们是把程序带进数据,就是实时进行工作。
刚才说到分析结果要进行可视化,只有可视化才能更直观,更能够被决策者所看得见,也能够在发布的时候,让老百姓所能理解。举个例子,上海延安路上我们布了很多很多摄像头,每个摄像头后面都连着一个电视屏幕,往往在交通监控中心,一面墙上放了很多很多电视屏幕,再多也不可能把整个上海交通电视屏放上去,只能每十秒钟更换一次,可能每一个点要半小时/一小时看到一次。
现在我要把整个录像合成一个视频,我就可以看到延安路上交通状况如何。我还可以合成全上海的视频情况,在某一个经纬度上对应某一条路上,在某一个时段上演,哪个时候车最多?哪个时候行车速度最慢?因此可视化能够让我们直观看到上海市同一个时间交通流量图。
这是篮球场的半场,NBA统计2011-2012年投篮位置和投篮命中率的关系,这里面点值越大,表示在那个点上发生投篮概率最大。颜色发红的表示投篮的成功率最高,你可以看到在半圆以外投篮率都很高,在篮板下投篮也比较高,其他地方并不是很高,这就是很简单的可视化的例子。
其实在城市里头有多种多样的物联网,我们不太可能把电力、交通、工业、海水的合为一个物联网。一个城市有这么多物联网组成,关键是这些信息能不能共享?所以这是城市数据管理一个很重要的内容。
往往某个地方发生火灾了,可能打119,如果交通部门不去,那堵车了,救火车开不进去,如果供水部门不去,那个地方开不了水,如果120不去,可能不能急救,所以城市的服务系统应该是互相关联的
最后,我们正在进入宽带时代和移动互联网时代,将要面对后摩尔时代、后PC时代,云计算时代和物联网时代及大数据时代也将向我们走来,网络技术正走向换代发展的转折点。
无线城市、数字城市、宽带城市、感知城市是智慧城市的必要条件;
智慧城市是城镇化进程的下一阶段,是城市信息化的新高度,是现代城市发展的园景。
智慧城市每天产生大量的数据,大数据的收集、存储和分析处理及使用对智慧城市是很大的挑战,这不仅是技术也是法律和政策需要关注的问题。大数据的挖掘对智慧城市的经济发展和社会管理是无形的管理。
好,谢谢大家!
(责任编辑:admin)- “扫一扫”关注融合网微信号
免责声明:我方仅为合法的第三方企业注册用户所发布的内容提供存储空间,融合网不对其发布的内容提供任何形式的保证:不保证内容满足您的要求,不保证融合网的服务不会中断。因网络状况、通讯线路、第三方网站或管理部门的要求等任何原因而导致您不能正常使用融合网,融合网不承担任何法律责任。
第三方企业注册用户在融合网发布的内容(包含但不限于融合网目前各产品功能里的内容)仅表明其第三方企业注册用户的立场和观点,并不代表融合网的立场或观点。相关各方及作者发布此信息的目的在于传播、分享更多信息,并不代表本网站的观点和立场,更与本站立场无关。相关各方及作者在我方平台上发表、发布的所有资料、言论等仅代表其作者个人观点,与本网站立场无关,不对您构成任何投资、交易等方面的建议。用户应基于自己的独立判断,自行决定并承担相应风险。
根据相关协议内容,第三方企业注册用户已知悉自身作为内容的发布者,需自行对所发表内容(如,字体、图片、文章内容等)负责,因所发表内容(如,字体、图片、文章内容等)等所引发的一切纠纷均由该内容的发布者(即,第三方企业注册用户)承担全部法律及连带责任。融合网不承担任何法律及连带责任。
第三方企业注册用户在融合网相关栏目上所发布的涉嫌侵犯他人知识产权或其他合法权益的内容(如,字体、图片、文章内容等),经相关版权方、权利方等提供初步证据,融合网有权先行予以删除,并保留移交司法机关查处的权利。参照相应司法机关的查处结果,融合网对于第三方企业用户所发布内容的处置具有最终决定权。
个人或单位如认为第三方企业注册用户在融合网上发布的内容(如,字体、图片、文章内容等)存在侵犯自身合法权益的,应准备好具有法律效应的证明材料,及时与融合网取得联系,以便融合网及时协调第三方企业注册用户并迅速做出相应处理工作。
融合网联系方式:(一)、电话:(010)57722280;(二)、电子邮箱:2029555353@qq.com dwrh@dwrh.net
对免责声明的解释、修改及更新权均属于融合网所有。