本文讲稿速记和PPT由主讲人俞士纶院长和主办方 “首届中国大数据应用大会”授权获得,大数据文摘(bigdatadigest)和数据派(datapi)联合发布。速记内容有删改。
整理:袁明嘉
校对:张冬阳
导读:“2016首届中国大数据应用大会”在成都世纪城国际会议中心举行了开幕式。在7月14日上午的开幕论坛中,清华大学数据科学研究院院长、Fellow of the ACM and the IEEE俞士纶院长分享了题为“大数据的机遇与挑战”的演讲。以下为演讲实录:
大数据的产生
进入大数据时代是因为现在有很多数据可以被收集和产生,我们有很多传感器,其实今天我们手机上也有很多传感器可以传输我们的位置在哪里,或者我们行动的速度,我们每一天要上网,我们上网的记录都会被记录下来,另外现在我们大家要电子医疗,就把我们所有的病历都整合在一起,这又是另外一种数据,现在我们在很多地方也是利用数据来研究,比如说我们的加速器,也是收集很多数据,从这些数据里推测最近发生了什么现象。前阵子我们放了很多卫星到太空,也是为了收集资料,我们购物的时候也会留下很多的数据。
从前只有新闻记者可以发表意见,而现在我们每个人都可以发表意见,在饭店吃完饭之后就可以发表什么好吃什么不好吃,以前只有美食家才能给饭店评星,现在每个人都是一个记者,都可以发表意见,正是因为这个原因我们就有了大量数据产生。
大数据的机遇
我们有大量的数据不断地在产生。但是我们为什么要关心这些数据被产生?因为这些数据事实上有很高的价值在里面,比如从一个公司来说,它希望能够得到它的顾客资讯,顾客了解越多就越能够为顾客提供更好的服务,所以对于一个公司来说,收集顾客的数据对他而言是一种竞争的优势,比如说我们像阿里巴巴,它有很多的顾客,这样收集的数据就不是一个小的电子商务公司可以相比的。
每一个人都可以到网上批评任何一个产品,所以对公司来说也必须要了解它的产品在网上的评价是什么,如果被别人评价的不好就要马上采取措施,解释说为什么这个产品有人会觉得不好或者要进行产品改进,不然既使是大公司,它的产品收到不好的网络评论它也会卖不出去。政府也希望了解一般人对政策的反应,所以美国一个政策实施之前会放一点东西到网上看大家的反映,这样政策就会跟着调整。
现在大家最关心的是反恐,如果要反恐也是需要收集很多网上或者电话资料的,这样就可以在恐怖分子攻击之前就把这些恐怖分子抓到。
健康医疗方面,一般人现在的看法是,我们的健康医疗其实并不是很进步,比如一个人得了癌症,通常如果做化疗医生第一个建议化疗的药物是很多人对这个药物有好的反映,如果这个药物没有效再介绍下一个药,所以他并不是针对一个个人的状况来推荐药物的,我们就希望如果可以把很多病人的资料能够聚合在一起,就可以找到对这个病人而言哪一种药是对症下药的。
社会科学方面,我们知道社会科学都是喜欢做问卷,你设计一个问卷,然后访问,也许100个或者1000个人就可以得到答案了,而现在社交网络上有很多资讯,我们可以直接在网络上采集资料,比如美国大选曾经也是使用问卷的方式,来预测哪一个人会当选,现在直接从社交网络上收集资料,因为这些资料有的时候更加有代表性。
更多完整图文内容,请关注公众号“数据派”(ID:datapi)