大数据和云计算硬币的正反面
“大数据也需要云计算这个平台,这是一个硬币的正反面。”阿里云总裁王文彬(花名:菲青)与媒体交流时表示。这几年IT行业发生了翻天覆地的变化,直到现在大家依然在谈论云计算。这云概念出现当初,业内不断传出质疑的声音,随着各大云服务厂商的努力,现在各行各业都已经开始接受了云计算服务。2014年7月,阿里云ODPS项目正式对外开放。
伴随着互联网与移动互联网的相关技术不断成熟,云计算开始被市场接受,海量数据大潮来袭,厂商和企业纷纷看到了大数据的前景,我们现在已经生活在一个数据的时代。 大数据和云计算 是分不开的硬币正反面 传统IT已经被颠覆 阿里云从2009年开始在云计算服务方面进行研究到目前已经有五个年头了,这五年中阿里云突破了各种各样的技术难题,从去年的5K集群到今年的ODPS,阿里云已经成为云服务产业中的领军人物。在阿里云看来,云计算和大数据是不可分割的,就好比一个硬币的两面,精准的大数据分析依赖于强大的云计算平台。
阿里云总裁王文彬表示:大数据和云时代的到来颠覆了企业传统IT架构,企业IT进入了云服务+数据的时代。传统IT还存在于购买硬件与软件的基础上,而云服务将企业IT变为按需购买,从针对硬件与软件的购买模式上转变为对服务的统一购买。随着移动互联网加互联网的来临,整个模式现在是一个翻天覆地的改变。
2大数据带来的改变
大数据带来的改变 大数据已经趋于平民化,花个几百块钱,人人都可以使用大数据服务,玩转大数据已经不再是大企业的专属技能了。经过五年的积累,阿里云计算发布核武器级别的大数据产品——ODPS。通过ODPS在线服务,小公司与小团队可以对拥有的海量数据进行快速分析挖掘。阿里云总裁王文彬(菲青)表示,ODPS会改变整个中国,不论云计算,或者整个大数据的里程碑,所以我们自己一直体会到这个东西。
到底什么是ODPS
简单来说,ODPS(Open Data Processing Service)是一项Web服务,大家不用花大钱建数据中心,就能分析海量数据。我们测过,100PB的数据任务可在6小时内跑完。这个数据量相当于1亿部高清电影。
如何让数据产生价值?先得拥有大规模处理能力,然后才是挖掘、算法和分析。传统的做法是这样的:租个机房,买一堆昂贵的设备搭建数据仓库,再请一帮技术人员来维护运转。一旦触发bug,或者当数据总量超过100TB时,你的工程师们可能会被这些麻烦搞崩溃。 Hadoop开源系统很伟大,大大降低了成本。阿里是中国玩Hadoop玩得最好的几家公司之一,Hadoop支撑了淘宝、支付宝早期业务的快速发展。不过,自建一个像样的Hadoop集群,得百万起步资金,专业的Hadoop人才更是稀缺。门槛还是太高。
ODPS到底能做些什么
在国内,说得再好不如有个好的案例。ODPS已经在阿里内部进行了大量的使用与测试。在阿里内部,第一使用ODPS的是阿里小贷,阿里小贷每天得处理30PB数据,包括店铺等级、收藏、评价等800亿个信息项,运算100多个数据模型,甚至得测评小企业主对假设情景的掩饰和撒谎程度。经过长期的测试,ODPS帮助小贷完成了大量的数据计算与分析的工作,从而掌握正确的用户信誉度。
在未来,人们申请贷款的时候机器就可以完整个流程,根据大数据分析得出的个人信誉度来自动完成相关的信誉评估。
公共领域的数据挖掘,可以用ODPS吗?当然!结合中国气象局的精准预报数据,高德地图不久后就能告诉你:"前方道路已严重积水,您的车辆驶入可能会遭水淹,建议绕道行驶。"如今,每盒药品上都有一张电子身份证,从生产、流通、储存、配送、销售到使用,全过程的数据都跑在ODPS上,一旦发现问题药品,监管部门可以立即采取措施。我们期待未来每一桶油、每一道菜的数据都跑在ODPS上,食品安全问题需要通过创新的方式来解决。
3探秘阿里云的御膳房与登月计划
探秘阿里云的“御膳房”
基于ODPS,阿里为第三方软件服务商和品牌商提供大数据计算、挖掘、存储的云环境开发平台,构建阿里数据生态。通过御膳房数据市场,数据消费者与数据提供者可以安全地交易、使用海量数据,实现数据价值。
1.丰富的淘宝数据。目前御膳房已开放商品、商家、客服绩效、品牌四大主题数据,后续会继续开放行业、竞品等主题数据;同时开发者也可以将个人数据上传使用。
2.指标标准可靠。开放共建的聚石塔数据标准联盟,御膳房提供完善准确的基础指标定义,计算口径,检验工具等,确保数据标准、唯一可靠。
3.自助计算。强大稳定的计算能力,提供离线分布式计算平台及强大的算法环境,自主提交计算任务,自主开发模型挖掘数据价值,大数据计算快速响应。
4.安全的操作平台。御膳房支持隔离的数据存储、独立的数据任务部署,确保御膳房内的数据交易与数据开发安全防泄漏。
5.灵活数据接口。开发者可根据需求灵活定制API,数据输出符合TOP API规范。
6.大数据挖掘工具。御膳房提供R、Python、MySQL在内的主流大数据挖掘工具,支持模型研究与快速迭代试验,提升数据价值。
阿里内部的登月计划
2013年10月,为了融合阿里小贷和支付宝的数据,支付宝希望ODPS团队协助他们搬家,将支付宝数仓业务从Hadoop机群搬到ODPS上,登月1号项目启动。2014年5月,登月1号项目顺利成功,小微金融服务的全部数据业务开始基于ODPS发展。
在2013年底,受到登月1号项目的启发,阿里数据平台团队联合技术保障部和集团各事业部,开始了一系列宏大的登月计划,致力于将搜索、广告、物流等多个BU的数据统一,未来ODPS将成为承载阿里集团全部数据的统一处理平台。“登月计划”共计划了20多个项目,涉及阿里巴巴和小微金服所有的事业部,覆盖集团全部数据人员,其牵扯人员、资源之多,在集团内部罕见。
从Oracle到Hadoop,阿里云解决了海量数据如何存储和分析的问题,阿里的数据业务不再受制于规模的瓶颈;从Hadoop到ODPS,更是一次质的飞跃,为后续大数据业务的开展扫清了障碍。