当前,信息技术的创新正在改变着我们熟悉的生活和工作方式。在大数据时代,与气象事业发展密切相关的气象数据再次成为焦点。气象的大数据时代真的到来了吗?近日,记者就上述问题采访了国家气象信息中心副总工程师沈文海、中国科学院自动化研究所研究员张文生。
大数据到底有多“大”?
IBM研究表明,在整个人类文明所获得的全部数据中,有90%是过去两年内产生的。而到了2020年,全世界所产生的数据规模将达到今天的44倍。
根据国际数据公司IDC监测,人类产生的数据量正在呈指数级增长,大约每两年翻一番。
数据量暴增的速度令人瞠目结舌,我们已进入“大数据时代”。张文生说:“事实上,智能终端的大量应用,如聊微信、刷微博、手机支付,让越来越多的用户贡献了越来越多的数据。”
记者了解到,就数据量而言,中国的大数据主要有以下几类:互联网,大约有2EB的数据。电信、金融、保险、电力、石化系统每个系统大致都拥有10PB以上的数据;在公共安全、医疗、交通、电子政务领域,一个中等规模城市每年大约产生300PB。在商业销售、制造业、农业、物流和流通等领域,数据量尚处于积累期,体量不大,多的达到PB级别,基本约在数十TB到近百TB级别。
对于气象数据来说,“气象部门需要永久保存的数据目前约有4PB~5PB,年增量约1PB。”沈文海介绍,相对而言,气象数据较上述数据大户至少低3个数量级。
气象数据是大数据吗?
“大数据就是全体数据,是混杂数据,不必追究数据的来源。”张文生介绍。
目前,对大数据的特征,科学界已达成了共识,就是大体积、多样性、高速度和价值大。“体积巨大是大数据的最根本的特征。一般而言,大数据的起始计量单位至少是PB、EB或ZB级别。”沈文海介绍。类型和来源的渠道繁多是大数据的第二个特征。此外,生成速度快、处理时效高、价值巨大也是大数据的特征。
“在体积上,气象数据刚刚达到大数据的准入门槛。”沈文海分析道:目前,在所有气象资料中,地面观测、气象卫星遥感、天气雷达和数值预报产品四类数据占数据总量的90%以上,堪称“四大金刚”。
气象数据来源种类繁多,仅气候工作特用资料就包括冰芯、花粉、树木年轮、洋流盐度、地表植被等观测资料,已达数十种。沈文海说:“这些数据虽然种类多,但都是只用于气象领域的科学数据,来源较为单一。”
众所周知,基本的气象数据直接用途是气象业务、天气预报、气候预测以及气象服务。“大数据应用”与目前的气象服务有所不同,前者是气象数据的“深度应用”和“增值应用”,后者是既定业务数据加工产品的社会推广应用。
“不宜将气象预报产品的社会化推广应用简单地冠以‘气象大数据广泛应用’的名称,因为产品应用与气象数据的‘大小’无关,如此冠名将易导致概念的混乱和气象‘大数据’的简单化。”沈文海表示。
气象数据要如何发展?
大数据时代已经到来,气象数据如何发展是气象工作者关注的重点。“目前,社会上的‘大数据应用’大多局限在数据基本价值的深度应用挖掘方面。”张文生说。除了大家知道的天气预报等,现在,气象行业的公共服务职能越来越强,面向政府提供决策服务,面向公众提供气象预报预警服务,面向社会发展,应对气候发展节能减排。这些决策信息怎么来依赖于我们对气象数据的处理。
采用统计分析方法对海量数据进行分析处理,发现其中某些特定要素之间的关系,这是到目前为止,所有“大数据应用”成功案例的共同特征,即便“大机器学习”等目前备受推崇的大数据时代新事物也无例外。“大数据的核心就是预测”,这是《大数据时代》的作者舍恩伯格的名言。“如果这一断言是准确的话,那么气象数据的‘大数据应用’时代也许还没有到来。”沈文海分析道。
天气和气候系统是典型的非线性系统,无法通过运用简单的统计分析方法来对其进行准确的预报和预测。人们常说的南美丛林里一只蝴蝶扇动几下翅膀,会在几周后引发北美的一场暴风雪这一现象,形象地描绘了气象科学的复杂性。运用统计分析方法进行天气预报在数十年前便已被气象科学界否决了——也就是说,目前经典的大数据应用方法并不适用于天气预报业务。“既然预测是大数据的核心,那么对于天气预报这一气象领域核心‘预测’业务而言,其‘大数据应用’除了统计分析方法外,还有什么别的方法吗?”沈文海说道。
气象数据是整个气象行业的基础资源,它的价值在气象行业内部已经和正在被深入挖掘着。对于全社会而言,气象数据也是极其珍贵的信息资源。我们期待着气象数据在跨行业综合应用这一“增值应用”价值挖掘过程中焕发出的新的光芒。
面对社会上沸沸扬扬的大数据风潮,观察一下国外气象同行们的反应不无裨益——尤其是身处大数据风潮发源地的美国气象同行。当你了解到这些国外(尤其是发达国家)气象同行对于大数据风潮近乎一致的冷漠反应时,你的头脑也许会冷静下来,并产生如下疑问——气象大数据时代真的到来了吗?