随着互联网+、人工智能、云计算等新技术不断涌现与成熟,大数据与各行业深度融合,引发了各种变革。搜索引擎服务、电子商务、社交网络、在线音视频、地理信息服务等互联网应用产生了海量数据,企业如何从海量数据中发掘有价值的数据,将数据标准化、平台化、智能化、产品化,最终帮助企业进行正确决策,成为企业大数据落地的重点和难点。
“在合法合规的前提下,从海量数据中高效的提取数据的应用价值,是大数据落地的关键所在。如果数据量很大,但是无法提取出价值,反而是一种负担。”联通大数据有限公司数据科学总监陈博表示。“从落地的角度看,我觉得大数据需要与各行业深度融合。同样的数据可以用于不同的行业,而如何从数据中形成适合某个行业的应用价值,需要对数据的价值维度与行业的应用场景都有非常深入的认知。”陈博补充说。
集中运维管理,保障应用基础
作为通信运营商,中国联通早在2010年,就提出了数据大集中策略;2012年,开始组建全国数据中心,涵盖全国所有省份实现了全网数据的统一集中汇聚与管理。目前,联通大数据公司每天的新增数据量达到150TB以上。
为了能高效的处理如此海量的数据,联通大数据目前拥有数千节点的集群,每天要运行10万个以上的处理任务。运维如此大规模数据集群,在业界也是不多见的,对于联通大数据来说,并没有太多可以直接借鉴的外部经验,靠的就是自身建立的一支高效的集群运维管理团队,进行长期24小时不间断的监护、优化。在过去一年中,在日增数据量翻倍、集群资源几乎没有扩容的情况下,通过从集群文件碎片、冗余数据库表、RPC任务管理等多方面的持续优化,使集群的整体资源负载反而下降了近30%,从而为上层大数据应用提供了坚实的基础算力保障。
同时,联通大数据对所有数据业务的开展都是以完全合法、合规为首要前提,内部有着非常严格的安全管理和监控机制,坚持“敏感数据不出门”的原则;对外数据产品与服务更多是基于区域性、群体性的统计分析以及模型加工产生的标签数据,并且任何数据结果的输出都需要经过内部安全网关的层层严格审核,从而为上层大数据应用提供了可靠的安全合规保障。
在此过程中,联通大数据在大规模数据集群运维、海量数据资产管理方面积累了大量的实践经验,逐步总结形成了一整套完善的运维管理机制,在6月初的大数据产业峰会上获得了“2019年星河奖——最佳数据资产管理实践奖”。
构建数智能力,释放应用价值
面对日增上百TB、总量近百PB的海量数据,如何实现大数据的应用价值,陈博认为“大数据企业首先需要对于自身数据的核心价值维度有明确的认识,进而才能清楚如何建立自身的数据能力体系去释放数据的应用价值“。围绕自身的运营商大数据,联通大数据则定义了行为兴趣、位置时序、关系图谱3大数据价值维度,并相应的构建了3大类数智平台能力体系,这背后则用到了诸多NLP、搜索引擎、时空序列、图计算等关键技术。
而在数智平台的每一项能力的构建与应用中,联通大数据的各种数据架构、数据模型、数据算法需要面对的都是PB级的海量数据,既需要考虑算法模型的准确度、有效性,更需要保证在大规模数据上的可用性、稳定性以及运行效率。典型的例如,从万亿级的信令大数据中通过快速排序、迭代进行基站位置工参纠偏;从万亿级位置时序数据中准实时的进行区域、时段关联检索,进而实现线上线下融合洞察推荐;从几亿号卡对应的万亿级信令中发现群体聚合,进而进行黑灰产风险号卡识别;从十亿级顶点、数百亿关系边的图谱中,进行N度关联群体发掘,进而辅助用于企业经营位置识别等等。这些能力的构建、应用的实现,凭借的则是自身组建的一支涵盖数据分析、数据建模、AI应用等多方面能力的高素质、高效能的数据科学团队。
通过这3大类数智平台能力的组合,支撑了上层的广告、风控、洞察、舆情等标准产品,以及金融、政务、文旅、公安等各类行业应用,已经形成了丰富的大数据智能应用案例与落地成果,实现了“大数据”到“大价值”的转化。
汇聚能力资源,赋能行业升级
联通大数据已经构建了强大的数据连接、运维、治理、分析、应用、服务能力,构成了作为一家大数据科技企业快速发展的动力引擎。而在此之上,我们更希望通过开放合作,与各行业伙伴共同成长。
一方面,我们将自身在集群运维、数据治理、模型构建方面多年的运营实践经验,梳理为模式化、流程化、产品化的大数据平台建设方案进行能力输出,已经帮助政府、电力、银行、教育、旅游、邮政等多个行业的合作伙伴搭建了自有的大数据平台、应用系统,赋能行业合作伙伴快速构建大数据应用基础。
另一方面,联通大数据基于自有资源,推出了面向外部合作伙伴的能力开放平台,以多租户的形式为每个合作方提供“算力+数据+服务”的脱敏、安全、个性化的开发训练环境;合作方开发完的模型、应用,经过安全测试后即可封装部署在联通数智平台上,通过安全网关形成能力输出,赋能行业合作伙伴构建丰富的大数据应用能力。
面向5G未来,数智赋能生长
谈到未来的发展方向,陈博表示,5G时代将至,未来连接的增长将不再主要是个人通信领域,而更多是物与物之间的连接,连接数量将会达到数百亿、上千亿的量级,涉及的领域也将覆盖智能穿戴、智能家居、工业监控、自动驾驶等各个行业、领域。未来5G时代的大数据,无论在数据量级、时间/空间密度,还是价值维度上都将会有从量到质的增长变化,但这将是一个逐渐发展的过程。因此,联通大数据将紧密跟随5G发展步伐,关注各个行业发展态势,秉持“开放生态,合作共赢”的理念,携手行业合作伙伴,挖掘行业的应用价值,继续以“大数据+AI”的数智能力赋能未来行业生长。
嘉宾介绍:
陈博,博士后,联通大数据有限公司数据科学团队负责人,主要负责大数据分析挖掘、机器学习建模、人工智能应用方向的研发工作。陈博于2008年毕业于北京邮电大学,获得工学博士学位,主要研究方向为机器学习、自然语言处理、信息检索;毕业后曾先后就职于NEC中国研究院、中国联通集团总部技术部。