2015年6月3-5日,作为云计算领域最具影响力的盛会—— 第七届中国云计算大会在国家会议中心盛大开幕。大会以“促进云计算创新发展,培育信息产业新业态”为主题,承续前六届的成功经验,超过100位国内外云计算领域核心专家精彩演讲,聚焦生态系统现状和发展趋势,交流实践经验,进一步推动技术创新应用。
中国工程院院士 高文
中国电子学会云计算专家委员会副主任委员,中国大数据专家委员会副主任委员,国家自然基金委副主任、中国工程院院士高文在题为《城市多媒体大数据高效存储与处理技术》的演讲中表示:最新的图灵奖获奖人是Dr. Michael Stonebraker,数据库领域非常著名的专家之一,这也证明了大数据技术对产业而言非常重要。智能城市作为大数据实践很有代表性。首先,智能城市是一个复杂信息生态系统,;其次,智能城市的基础,是城市大数据传感网络和大数据中心;第三,智能城市成功的前提,是政府决策的主要依据来自大数据中心。比如,李未院士的“北京天通苑轨道交通研究”,通过优化公交调度、热点区域直达、优化作息安排、绕行其他道路等短期方案来解决拥堵,中长期是要“针对个人,可根据其出发时间和目的地,实时规划公交路线,动态预测其到达目的地时间”。除此以外,还有广州外地车限行对策。这些都说明大数据已经成为“智能城市”发展的助推剂。城市信息基础设施和智能应用的桥梁是数据传感网络,其中,监控视频感知网,交通客流(一卡通)感知网络,套牌与换牌车(交通卡口)感知网络,道路交通状况感知网络,城市流行病感知网络,城市污染源感知网络等都是重要的数据来源。从技术上来看,就是要过“三关”:存储,AVS2监控视频编码压缩标准、IEEE 1857.4;表达,MPEG CDVS、MPEG CDVA、IEEE1857.6;计算,数据关联、机器学习、决策支持系统。最后,通过决策形成流程。
以下为演讲实录:
大会已经进行三天,大家前面已经接触了很多和智慧城市有关的演讲,我的演讲主要集中在多媒体大数据,在智慧城市里有什么瓶颈,需要做什么技术上的储备和处理。云计算、大数据,非常热。计算机领域的图灵奖相当于计算机领域的诺贝尔奖,今年的图灵奖准备授给这位先生,Michael stonebraker,他是数据库领域最辛勤的耕耘者之一,很多数据库原型基本上都是在他的推动下成功的。所以把这个奖颁给他,是从一个角度证明现在大数据非常重要,大数据中的核心技术非常重要。
我今天主要讲围绕城市的多媒体大数据讲四个方面的问题,一个是核心要义。其下有三个支撑,城市大数据的传感网络,数据中心,决策中心。因为后者已经脱离了技术范畴,不在展开,作为结束语。
智慧城市核心要义
首先,跟大家分享一下关于智慧城市的核心要义。很多专家经常把智慧城市理解为城市信息化,更多的领导也是把智慧城市理解为怎么样让他领导的城市完全信息化,装上计算机,装上很多传感器就可以了。实际上,智慧城市它并不是一个简单的城市的信息化,它的含义要大于这个。这里面是一个生态系统,一个复杂的信息生态系统。这个生态系统包括三个环节,第一个环节就像人的视听、触觉等等感知,首先它能感知这些大数据,城市信息的感知,是感知网络。第二个核心的生态部分,就是要有一个数据中心,有一个计算能力超强的数据中心,能把感知到的数据对它进行处理。第三个要义是往往被忽略的,就是要有一个决策中心。当然现在的决策往往是在前,这也是我专门讲智慧城市要远远大于城市的信息化的原因。以前的城市的信息化大多数是领导先定下来一个决策,先说要做一个什么,要有一个什么宏观规划,然后去做,所有的系统是按照前期响应的目标向那里逼近,这个思路是错的。决策应该在后来,就像人一样,当然人可以自上而下的决策,但是人更多的决策是反过来的,他对周围环境有一个感知,然后经过大脑的处理,最后决定我这件事情怎么做,这是一个比较正常的环节。所以我们现在的智慧城市或者智能城市,应该按照和人比较类似的思路去对它进行管理和控制,这三个部分,特别是第三部分对于今后城市的管理是一个很有挑战的事情。
这样一个智慧城市要想把它做好,有很多案例可以说明。我就简单举两个例子。一个是我们北京天通苑的例子,天通苑是1999年建设的大型社区,8平方公里,现在住了90多万人,这些人在这个集中的区域里住,很显然会遇到一个问题就是交通问题,这些人早上上班,晚上要回到住的地方。很容易想象,容易出现拥堵,事实上确实容易出现拥堵,天通苑的人上班,交通是一个最大的问题,到底是哪里堵。原来的分析可能说天通苑,因为它是在东北角,住在那里的人很多可能是到CBD区域上班,估计那条线是比较堵的,所以专门有一条线是往CBD通的。但现在的大数据告诉我们,天通苑最主要的交通拥堵不是在那里,发生在哪里呢?现在天通苑最大两个目的地,第一个是上地,第二个是中关村。最多的是去上地上班,恰恰在天通苑设计的时候是没有直通车的,所以就要换乘。现在如果想从天通苑到中关村,有一条5号线,另外有一条是13号线。你要去上地,尽管从天通苑数起来没有几站,但是中间必须要换车,换车就是非常糟糕的一个体验。所以很多人宁可选坐公交车不坐地铁,因为换乘是非常糟糕的体验。主要的交通压力就到地面了,所以从天通苑到上地到中关村交通是非常拥堵的,开始设计的时候完全没有想到。
看到这个数据我们也给北京市有关部门建议,说可以修一条直通车,从天通苑第一站在上地,第二站在中关村,这可以把20%的压力一下缓解掉了,因为现在的交通设计没有安排快车,刚才说的是快车,第一站就是上地,第二站是中关村,没有办法开快车。能不能再修轨道?还得重新规划,规划好了就要很久的事情。这就是智慧城市里应对这样的问题是很大的难题。如果参加过6月3号讲座的,大家可能听到李未教授做了一些研究,他们给出了很多解决方案,既然能修一条解决方案,他们给出了包括公交车怎么调度,具体的短期还可以给出一些基于大数据和数据挖掘的办法,可以在各种各样的优化安排上做一些安排,具体使用的工具可以使用数学的工具,包括静态的规划、动态规划,把数据输入进去挖掘这样的工作。
总而言之,根本上没有办法解决,但是作为工程技术可以找到解决方案。最根本的起来回到刚才的,有了这个数据,后面的决策流程和决策程序非常关键,如果北京市政府看到这个问题,想法解决还是要从根本上下工夫。
第二个案例就是广州限牌、限购的例子。2012年广州就想解决拥堵问题,这个问题在哪里,核心最主要的拥堵产生根源是什么。因为很多人说,在广州很多人开的不是广州本地牌的车,是因为这个原因造成了广州交通拥堵,所以有人提出一个建议,咱们来一个限制令,非广州车牌的车,交通拥堵时间不准进广州。大家知道外地车进北京要办一个通行证,没有的话就不能在这长期呆,可以在这用几天。广州有段时间也想实行这个政策,如果实行了结果会怎么样,他们就做了一点分析:到底是有多少外地的车在广州这个地方经常出入。通过大数据的分析,就把整个数据都监控起来,调进来以后进行分析,分析以后发现,外地车在广州可分成四类,一类是本地化使用,比如说深圳的车牌在广州使用;第二是候鸟型;第三是偶发过境;第四是常发过境,有的车很有规律,每天都从这里过。分成这四类就比较有意思了,在这四类里,后来突然发现,真正对于它本地早晚交通造成拥堵的,实际上是第一类。大家可以看到,外地车的本地化使用数量约4.7万辆/月,只占所有外地车(约357万辆/月)的1.31%,非主流,可忽略。实际上即使把这些外地车限制住了,高峰时间只能解决1.31%的拥堵,这个政策你采用和不采用是没有什么大的区别。98%是没有变化的,只有1.3%是有变化的,但是这个政策一实行以后就会造骂,”我们帮你作贡献你们还给我们歧视“,最后决定不采用这个政策。这就是大数据帮助决策的很多事。
所以智慧城市的城市,或者智能城市发展,大数据是很有用的东西,关键你怎么用它,这是第一个问题。
传感器网络是智能城市的基础
第二问题,在整个智慧城市大的生态链里,第一个环节就是传感器网络,或者叫大数据传感器网。给出这样一个系统,智慧城市这个系统里最主要的就是把数据时时的,全方位的获取进来,包括各种各样的数据,比如说像车辆,你可以通过卡口,可以通过电子警察、视频监控等等,把所有和车辆有关的数据都获得进来,还有和生活,一些定位、地理信息、个人身份验证,比如说交通卡、一卡通等,对于城市的安保还有一些,像公共事件、自然灾害、社会安全事件,就要把这些数据都能够时时感知到,然后把它送给你的中心。
这样一个监控网络一定要形成网络,如果形不成网络,这个系统就是很弱的。要想形成网络,目前的智慧城市,它的网络都是一小片一小片的,没有完成连接起来,这是有问题的。所以一个比较理想的感知网它是包括刚才说的所有的,每一个单独的信息都能够时时汇聚到数据中心,这个网络才能真正形成。
我们知道现在单独的可能都在,但是要汇总起来要下一点决心,需要投入一些。比如说这个感知网络,容易想到的像一卡通、火车、轻轨等等,目前都是在交通公司里,把它全部放到城市的数据中心里。另外,卡口的信息在交管部门都是有,但是怎么样把它放到城市的信息中心,能够很好地使用。我们知道新闻里经常出现一些套牌车这样的信息,或者是有意识的跑一段,他跑一段把车牌换别的车牌再跑,一旦你换掉了车牌,基本上目标就丢掉了。但是,如果我们用刚才说的感知系统,我们就有办法不仅感知你的车牌,而且感知你的车型,后面有一个演示专门说这个问题。
交通状况的感知现在已经深入到每一个人的生活当中了,如果我们想查查堵车不堵车,哪条路堵车,马上打开导航,打开GPS,打开手机的百度地图你就能看到。这个信息是从哪里来的?都是从后台统计来的,后台把包括出租车在内的一些GPS信息,或者个人的GPS信息,它做一个数据统计分析,就看在这个区段的,这些移动的物品平均速度是多少,就把整个交通状况统计出来了。有了这个对整个交通状况就很容易感知,当然希望有更高的技术,除了GPS还有摄像头的监控统计,再早一点地下还有传感器,将来希望天上有一些视频的感知,把这些数据都加在一起就比较准确一点。
另外,一个城市里总是有各种各样的流行病的产生,流行病发作到什么程度,都是通过新闻里知道,但是现在通过医保的统计可以分析这些情况。
还有污染,污染是面临的很大的问题,现在污染更多的从空气指数,从网站上看到的,但是这个信息量太小,我们说不是真正的大数据,北京市大概只有二三十个点。北京这么大城市,我觉得至少要有几万个点才比较有用,有十几万个点更好了,但是这个靠政府投入根本不行,就要通过大数据,把个人发动起来,把个人家里装一些检测设备,让可信的数据入网,通过这个大数据可以看得出来这个污染源到底是从什么地方。一会儿可能是通州是污染源,一会儿说是丰台是污染源,现在点太少,如果多了就可以检测起来。
在所有的感知系统里,有一个最大量的数据是视频数据。有很多统计分析都告诉我们,现在在大数据里面,最大的部分,或者超过一半的部分是摄像头的监控数据,但是这些数据很可惜没有很好利用起来。举个例子,这是我们国内的一个例子,某个城市,不方便说具体的,有可能好也可能不好。
这个省可能了100万个摄像头,有10万个是治安的摄像头,还有3000个汽车的卡口的,而且有1亿人口,有2000万车辆,10万个民警,所有这些东西,如果把刚才说的监控系统建立起来的话,这个是很大的成本。比如光摄像头就需要200亿,这是很大的成本,而且把这些东西全部用起来就是更大的一笔成本。所以怎么样把这个传感器网络真正建好,是有一个很大的挑战。
大数据中心形成决策依据
下一个问题讲一下关于大数据中心。刚才说把感知网络获得的数据全部送到数据中心,这件事讲讲不是那么难,但是到中心的数据怎么样形成决策,这中间是有一个过程的。这个过程通常是说,要把海量数据变成大数据,这是有一个过程。这个过程里最核心的要过三关,不是海量数据就是大数据,大数据是经过整理可以使用的大规模的数据才能叫做大数据,否则只是海量数据,只是一个简单的堆积。这个大数据要想用到大数据,大概要有三关,第一关就是把所有搜集来的数据存储起来。存储就是用了非常大规模的存储系统,什么数据都存得下,但这并不一定能做到。因为现在大多数像智慧城市里的系统,都不敢存很多监控视频的数据,最大的系统大概也就存三个月就覆盖掉,前面就没有办法存了,因为存不下,因为视频数据量太大。怎么样让它存得下,这是一个技术挑战。主要就是希望有一个办法,要么压缩的很小,要么把里面没有用的东西扔掉。怎么样压的更小,这是我的老本行,就是做视频编码或者视频压缩,现在经过30年的攻关,现在技术上应该说已经做到,每10年翻一番。大家看这个图,91年到94年,我们叫做第一代,第一代当时是针对的数字电视做的。到2003年作用到了第二代,这个仍然是针对互联网电视和数字电视来做。现在刚刚完成了第三代,现在的监控视频,绝大多数用的是第二代的技术,现在刚刚完成了第三代,就是一两年前完成了第三代,基本上它现在监控视频慢慢地有一部分已经往第三代转移了,但是数字电视还是在第二代上。从压缩效率来看,每一代是前一代的翻一倍,高清视频第一代压到150分之一,到第三代已经做到300分之一,我们希望第四代压到600分之一。这些技术还在进展,这也是我们正在做的,国内有一支队伍做的也很不错。比如说在AVS这个领域,大家可能都知道,视频编码里我们在监控视频已经比国外同样水平效率更高一倍。从监控来看,我们已经进到第四代了。这个编码现在基本上是已经变成国家标准,有些部分已经在广电,所有的高清电视都在用这个东西。监控视频还在往前推进,实现产业化还有一段时间,整个效能我刚才说了,比国外同等的水平效率会高一倍,主要原因就是我们里面用了一个很巧妙的背景建模技术,因为监控视频的背景基本上不变,它的效率就会提高,我们把背景建模我们叫做场景模式,把它打开和关闭会差40%50%的编码效率。
HEVC就是第三代编码技术,在极端的情况下,比较苛刻的情况下,效率提升40%,在宽松的情况下基本上就是两倍了。这里一些案例,现在用高清视频,非常高质量的用国外的同等的要接近4兆,压的很死几百K也可以,我们追求的是把每个细节看清楚,这个新的可能2兆就足够了,这是第一关。
第二关是表达,存储的数据要在上面进行特征的抽取,对它进行比对,进行分析,这个需要表达。关键是你怎么样把特征提取出来,比如机器学习,搞数据挖掘,其实它的算法最后效率高与低都取决于表达能力强与弱,表达也是非常关键的。在表达方面,国内很多团队做的工作也相当不错,比如现在对于汽车的表达,现在已经有一些很好的技术,比如是一些加强的SIFT特征的技术,可以把车牌和车型组合到一起进行表达,刚才车牌换掉,或者套牌车等,用这个技术表达一下就识别出来了。除非你那个套牌车的车和牌完全是一样的,那个比较难识别的,按这个表达的话,这个牌和车不相匹配,要么车是假的,要么是牌是假的,用这个技术就可以解决了。通过这种办法也可以在更高层面进行一个压缩,如果我不是在原数据的层面压缩,是在表达的层面压缩,压缩的效率可能还要高,可能是几千比一了。
有了高效的存储,有了表达,就可以做非常快速的检索或者搜索。现在一千万辆车,这个顶天了。一千万辆车能不能在一秒钟内完成搜索,这是我们设计的目标,这个系统就可以工作了。
第三关就是计算关,有了存储,有了表达,最上面那一层我们就要进行场景的分析,最后形成决策的辅助,这就是大数据的处理,这个处理最核心的就是数据的关联。因为传感器的数据来自不同的摄像头,不同的地点,怎么样把时间空间都关联到一个空间上,这个是非常难的问题,如果关联准了,后面就简单,如果不准后面的压力非常大,就是怎么关联,里面的难点是什么,我就不讲了。
通过这种关联你可以进行分析跟踪的技术,比如可以时时跟踪这些人。另外对多个摄像机怎么样进行对像的标识,可以通过一些算法。另外在A摄像机照到的人,怎么样在B摄像机找到他,这已经有一些不错的工作,所有这些工作都要再一个数据中心里完成,这个是我们做的原形系统,在北京大学的数据中心,已经可以做类似的工作。这是另外一些案例了。
最后的演示给大家看一下,这是一个大规模城市卡口车辆的精细识别,你这个城市有很多卡口,这个卡口车辆在过,每过一个车辆我们用刚才说的表达把它完全记录下来,根据这种表达,任何时候想找任何一辆车,任何一个车牌的车,或者里面驾驶员的情况都可以找出来,当然驾驶员可能不是那么清晰,我们这个数据马上可以告诉你哪个人没有系安全带,所以马上就标出来,哪个车没有系安全带,几点几分出来了,这个安装了以后,整个事情就变得相对简单了。
总结一下。整个智慧城市的生态链有三个比较重要的部分,一个是传感系统,一个是大数据中心,还有一个决策的环节。我前面把前两个部分已经讲的比较详细了,当然技术上还要做一些工作。最关键环节是决策形成的流程,这个已经超出了技术范畴,它是一个管理范畴的事。我前面已经说到了,必须要由政策的制定者,要基于大数据形成决策,并进行落实,这是一个很大的挑战,希望我们做大数据的人经常把这个理念向管理者灌输,使他们对第三环节更重视,希望大数据真正体现它的好处。