2014年12月12-14日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中科院计算所与CSDN共同协办,以推进大数据科研、应用与产业发展为主旨的 2014中国大数据技术大会 (Big Data Technology Conference 2014,BDTC 2014)暨第二届CCF大数据学术会议在北京新云南皇冠假日酒店盛大开幕。
2014中国大数据技术大会14日下午大数据基础设施论坛上,北京卓越讯通科技有限公司CEO赖兆红,希捷资深架构师郝继玖,Memblaze 技术顾问刘爱贵,DELL资深解决方案经理尹玉峰,阿里巴巴资深技术专家强琦,亚信大数据平台研发部经理田毅,AMD中国研究院研究员谷俊丽分别从存储、架构、计算等方面介绍了在大数据中的应用与实践。
北京卓越讯通科技有限公司CEO赖兆红发表了主题为“构建低延时大数据系统平台”的演讲。
他表示在大数据中,很重要的因素是时间驱动,数据量、价值和数据多样性都和时间都紧密相关。而大数据的速度快慢涉及很多层面,包括数据产生、数据传输、数据处理等快慢,这其中都会有时延的问题,所以时延是一个链条问题,存在于整个数据生命周期,包括采集、网络传输、存储、处理和结果数据获取,而并非某一个环节。“过去几年,基于Hadoop 等技术推动了大数据产业,但是低时延的核心技术并没有什么改变,低时延是一个latency chain。”他说道。
关于如何构建低延时大数据系统,他提出了以下几点建议:1. 基于FPGA的高速采集和 InfiniBand;2. 用UDP multiple lines 的传输方式;3. RDMA/Kernel;4. bypass 降低网络延时;5. Persistency 通过网络cloud ack方式;6. 减少context switch;7. 设计lock-free data queue;8. 内存地址as hash。
希捷资深架构师郝继玖分享的主题是“OCP中的存储”。
他介绍了自从2013年10月以来OCP存储工作组在存储领域的工作和相关的成果;针对未来OCP存储发展方向,讨论在以太网存储,高密度存储和冷存储方面的一些新的特性和未来的发展;分享OCP存储论坛相关的资源,简述OCP相关的测试认证流程和协作流程。
Memblaze技术顾问刘爱贵带来了主题为“闪存原理和大数据应用方法”的演讲。
闪存作为一种革新性的存储技术,由于其超高的性能和成本的不断下降,闪存已经成为数据中心不可或缺的技术元素。他表示尽管Nand Flash本身不是一个非常可靠的东西,但也有其鲜明的特点和优势。他强调了Nand Flash 的错误模型,这个特性可以帮助用户预测发生的错误类型,据悉目前只有Nand Flash有此功能。此外,他也介绍了ECC纠错,RAID保护、Read retry、Wear Leveling(磨损均衡)和Garbage Collection等技术。关于如何选择SSD,刘爱贵建议从容量/IOPS/带宽、Latency/Jitter、写寿命、功耗/散热和成本或性价比等因素进行考量。
戴尔资深解决方案经理尹玉峰主要介绍了与大数据并行发展的基础架构。
他分享了几组数据:成人拥有的平均数字设备在43.台,85%的数据来自新的数据类型,数据每五年增长10倍,37.5%的企业承认数据分析成为他们最大的挑战…在这样的3V的大数据时代,什么样的基础架构才能满足这样的需求呢?尽管目前CPU、内存和网络性能不断提升,同时存储容量也出现了增长……但应用的速度并未跟上步伐,为此尹玉峰也是介绍了融合架构以及其如何解决这些问题。
阿里巴巴资深技术专家强琦带来了对阿里实时计算平台的解析。
他表示阿里实时计算底层是一个增量交互式计算平台,它建立了一个通用增量交互式的计算框架,在此之上构建了算子层(类似Spark算子)和SQL层,同时引入内存snapshot来解决性能问题,利用checkpoint来保证容错的问题。并且解决了复杂的多流join问题,在出现严重倾斜的情况下,来避免性能和系统雪崩。有趣的是在增量计算框架下实现的机器学习和MPP会具备实时的交互式的体验。我们引入了多种索引技术,来加速计算,并引入了多项技术来克服adhoc的长尾query。在阿里双11所有媒体看到的实时大屏之外,几乎涵盖了集团内部所有bu的内部运营,业务所涉及到的实时计算指标。这些job每秒中都在不断更新最新的计算。集群每秒处理数据超过千万,并且能线性扩展;克服了严重的数据倾斜的网络抖动。千亿规模的数据计算可在毫秒级别解决。目前已经对外开放了分析数据库服务ads,后续我们将不断与外部客户分享我们的基础设施。
亚信大数据平台研发部经理田毅分享的主题是Spark技术研究与实践。
他介绍了为什么选择Spark,Spark的实践分享,使用Spark的建议。他表示Apache Spark作为新一代大数据分析平台,以全能分析闻名,可以在单个软件栈内混合批处理、流式计算、以机器学习为代表的迭代型计算、关系查询、交互式查询、图计算等多种分析范式,是搭建一体化大数据流水线的极佳选择。他举了个例子,当集群规模较小, Spark最大并发任务数不到300, 同时Hbase操作平均不到150,Hbase单次request处理时间1-2ms, 每秒处理700(单线程),说明机器数量有限时,有限的任务并行度会限制Hbase的吞吐能力。
AMD中国研究院研究员谷俊丽带来的议题是基于开发标准OpenCL的深度学习研究与探索。
她表示,目前深度学习模型层数已经叠加到了24层。接着她谈到深度学习训练过程分为两种,一种是有监督的训练,比如数据加了标签,计算机知道正确答案。一种是无监督训练,只有数据,没有标签,不知道正确答案。无监督训练是对Big Data很有实用价值了,例如海量的实时数据,不可能都加上精准的标签。如果不加标签,机器就可以识别,那我们周围的世界机器就可以理解和认知了,就达到了人工智能的目的。目前,无监督学习还是一个待研究的问题,还未解决。不过基于DNN的强大识别能力,最新的研究结果层出不穷,截止今天DNN已经横扫计算机视觉领域了。
更多精彩内容,请关注直播专题 2014中国大数据技术大会(BDTC) ,新浪微博 @CSDN云计算 ,订阅CSDN大数据微信号。