/ 中存储网

专访IBM苏中:认知计算关键技术解读

2015-07-31 20:47:00 来源:CSDN

7月26-27日,由中国人工智能学会发起主办、CSDN承办的2015中国人工智能大会(CCAI 2015)在北京友谊宾馆召开。IBM中国研究院大数据及认知计算研究总监苏中在本次大会上发表了题为《从WATSON到认知计算》的主题报告,并接受了CSDN记者的专访,分享了他对人工智能、认知计算最新技术趋势的理解。

IBM中国研究院大数据及认知计算研究总监苏中

苏中表示,IBM认知计算的工作,涉及中文在内的自然语言理解,包括文本、语音、图像的理解,这些海量非结构化数据的处理,包括采用深度学习的方法,基于传统的冯诺依曼计算架构来做,都有很大的挑战,因而认知计算需要计算架构的改变(和相应的编程模型的改变),而借鉴人脑处理信息方式的类脑计算架构,从数据量的容纳、计算的速度和功耗的表现来看,是一个可行的重要研究方向。

苏中同时认为,目前人类对大脑运行机理的认识还处于很浅的层次,类脑计算还存在很大的挑战,包括与现有架构如何协同。他表示,认知计算/人工智能需要接地气的应用来驱动,如果缺乏应用,否则,人工智能当前的夏天就有可能变成下一个冬天。不过,对于未来,苏中表示谨慎的乐观,理由是IBM Watson已经可以治疗癌症了。当然,拓展应用还需要我们长期的共同努力。

认知计算

CSDN:请简单介绍您最近在认知计算领域的工作。

苏中:我是负责IBM在中国认知计算的,从技术角度来讲做比较多的是三方面:

  1. 基于机器学习的自然语言理解。我们在中国更侧重一些独到的中文的难点,已经做了近二十年的中文语言理解。
  2. 人机交互相关的很多扩展性的研究,包括voice、speech,以及知识图谱相关的存储、查询、优化等。
  3. 行业解决方案的研究。如在医疗领域,利用大数据、认知计算的技术来帮助医生、病人的保健。针对银行、像保险公司,用认知计算的技术创新服务,如更好的理财。零售行业,利用认知计算提供个性化服务。

CSDN:自然语言理解这块,也包括图像理解?

苏中:当然。主要是非结构化数据。IBM在非结构数据在图象、语音、文本方向都做了超过四十年的研究。语音更早一点,可以溯及上世纪七十年代,其他工作都是上世纪八十年代开始做。所以谈到认知技术,不光包括文本,在整个非结构化数据理解上面,我们都有很多工作。

CSDN:非结构化数据的理解在认知计算中所占比重如何?

苏中:它非常重要,大数据80%都是非结构化数据,而且是机器很难处理的数据。很多的洞察是来自于这部分。当然结构化数据也有它很重要的一部分。

其次,我想说的是,IBM不是一个仅仅做软件的公司,而是综合的IT公司,上午说的整个系统架构、从芯片、再到上层,也许许多新的语言、新的编译器、新的应用场景、新的算法,整个都会有一些大的变化。所以你如果说比重的话,站在IBM整个认知计算角度来讲,它只是其中一部分,我们研究不光是机器学习算法,或者是自然语言理解,我们也做整个计算机体系研究,比如说大数据研究。因为认知计本身就是跨学科的,也需要跟脑计算相关的一些东西要融合。这很重要,也有更大的空间。

类脑计算

CSDN:IBM如何理解脑计算?

苏中:现在有很多人提这个词,类脑计算、类脑芯片,有时候也会把我们的工作叫做类脑芯片。其实就延展上午讲的,像人工智能的应用,或者像模式识别这一类应用,是不是需要更新的一个计算机架构?我们发现像模式识别数据量很大,时间和空间信息都在里面,对现在的计算机来说,明显不好处理。从特征筛选等等,整个流程实际上现在并不是用脑来运作,只是一个计算机,只是我们翻译成电脑。也许咱们中国人有先见之明,就把Computer翻译成电脑。真正电脑的架构是什么样的?这应该是一个很大的问题,应该说这个领域的研究才刚刚开始。因为就像谭院士所说,我们对于脑的认识还差得很远。

CSDN:有人说是模仿大脑?

苏中:徐院士说模仿人还不如模仿动物,我前段时间在网上说模仿单脑动物,比如说一个草履虫就是一个细胞,遇到危险会躲开,有那么多的纤毛,结构很简单,但是能表现很多智能的行为,这个应该来讲又退回人类对生命的认识。我相信跟计算结合在一起,很多现在的东西计算复杂度太高,然后性能很低,需要一个新的架构,可能会变得更有效。

CSDN:IBM SyNAPSE芯片去年就出来了,是在芯片上模拟神经元的意思吗?

苏中:是这样,首先它是一个超多核的,里边有54亿个晶体管,里面模拟了大概几千个类似神经元网,神经元网可以训练和连接,没有单独的内存,内部处理通讯,用一些模式识别的应用,速度真的是会比现在普通的CPU快很多倍,但是非常重要的是低耗能,只有有63毫瓦,现在普通CPU功耗都上百瓦,差了很大的量级。当然这只是个开始,其实如果真的做成像人脑这样的量级,可能需要更复杂的架构,能够把它都放在一起。还有一点是怎么在上面编程。通讯可能跟现在不一样,因为它失去了现在处理器架构的计算方式。

CSDN:计算速度很快,功耗很低,能否展开说这一点如何做到?

苏中:功耗低的原因很简单,因为计算机很多功耗是发生在总线上,如果你很多的在CPU内部就把所有的通讯给解决的话,这个功耗就会低。第二类是说,你要是让传统CPU做的东西,它的架构不是这样的,所以要做一万个步骤才能做一件事情,但是现在在这个一下就做好了。比如说一部分跟视频相关,另一部分是跟声音相关的,我现在只处理声音,其他很多方面可以不用,这也可以让耗能变得非常低。但是我相信,半导体技术本身也会让耗能变得更低,七纳米技术的功耗肯定要比二十五纳米低很多,这个肯定是往前发展。

CSDN:Watson是一个古老系统,它和新的类脑技术将如何结合?进展是什么样的?

苏中:这也是刚刚开始起步。我在演讲中提到,对脑的理解、计算的理解其实划分左脑和右脑。左脑是偏符号逻辑、计算、推理,右脑是偏感知,右脑是模式识别这种。其实最难的,因为人的大脑是左右脑联合协作的,这两种计算怎么在一个平台上很好的互相补充,意味着左脑功能现在做得非常好,像Watson做得非常好,并不是一个新的体系架构,它在很多方面通过大数据学习,可以表现出比人更好的智能。但是我们又看到说,人实际上是五官各种看得到、听得到,你能说出来的,实际上在大脑内部都是连在一起的。这个如果是右脑的体系架构和左脑不一样,它们怎么协作的,这才是一个起步和开始。将来很难预测技术会成长什么样,但是这应该是一个非常非常好的研究方向。

深度学习

CSDN:深度学习在您的工作中发挥哪些作用?

苏中:深度学习是非常火的领域,IBM在这方面也做了很多工作,包括我们在构建异构的平台,有CPU、GPU、FPGA各种各样的计算,还有芯片在这上面。其实深度学习,从计算领域是非常大的研究,因为它是非常耗时的,所以IBM做大数据的,做这种系统架构的,这种相当于大规模运算的,是一起参与这个方向,对我们来说这也是一个非常好的方向。比如说我们自己也在做利用深度学习做自然语言理解。传统的比如说很多特征是表现成《词典》,表现语法关系。也有一些是基于统计的,但是有了深度学习以后,它可以把海量数据都用进去,对我们来说是一个很好的工具。

另外一点,深度学习本身还有不完善的地方。很多开源软件做得很好,但如果我们做本身深度学习,发现里面很多的算法包、一些平台如CAFEE,其实还是有很多需要完善的地方。所以,我们的工作一方面从一个大的角度来说我们构建一个大规模数据计算平台,第二个就是说我们在这样一些平台上面做一些具体的在自然语言、在图象、声音数据方面的一些应用性研究。我们也有一些研究人员,他们也在有一些这方面的工作在做。

总的来说,深度学习对我们来说也是一个很好的领域,因为IBM研究部门是研究的方向很广泛,对于我们的全方位IT来说都是可以去做的一个角度。

CSDN:现在深度学习主要还是通过传统并行计算架构来做,如果要切换新的类脑计算架构,模型如何能够复用?

苏中:这本身就是一个研究课题,我相信这一定会大规模。因为现在的深度学习成本太高了,需要很多的GPU、CPU算很多天,有的甚至要算半年,如果你有新的芯片算得更快、算得更准,一定会改变的。

CSDN:量子计算的描述,也是可以更快地处理比普通电脑更多的信息。您如何看待量子计算对人工智能的影响,对于类脑计算会有冲击吗?

苏中:虽然这不是今天的话题,但是IBM在新的计算方面有非常前瞻性性的工作里面,现在就是两个方向,一个是认知计算,一个就是量子计算。我们今年早些时间在量子有很大突破,提出了新的错误检测机制。我不是量子专家,但我想说,在很多应用或者很多的角度来说,量子计算比传统的冯诺伊曼计算机有很多量级的提高,比如说在加密方面。应该说这让计算变得更多样,可能走到更远更有价值的一个方向,当然它也需要更多的突破。

应用挑战

CSDN:您谈到的类脑计算架构,大数据理解,以及新的交互方式,其实可以说是认知计算的机遇。从另一个方面来看,认知计算目前存在什么挑战?

苏中:很多挑战,从应用的角度就有很多挑战。首先说数据,数据的标准,数据质量,如何能够获得数据、或者共享数据,很多方面的需要,不是技术相关的问题。

如果从技术角度来讲,上午谭院士也讲了,我们对脑认识度很低的,认知计算是帮助人更好地解决复杂问题,辅助人类。对于人是怎么理解数据,怎么推理,大脑的一些问题是怎么在里面,数据是怎么传输的,怎么管理的,怎么生长出来,这些最本质的东西,我们在对于这些研究对象缺乏深刻了解的情况下,做这样一个技术,其实这也是很大的一个挑战。

再有一点,就是说人工智能,它经历过春夏秋冬,现在处在很热的时候,需要特别好的应用能够催生出来。最主要的是需要一个特别好的应用,让技术产生很大的价值。因为如果做不到这一点,很快夏天过去就是秋天,然后进入冬天了。就像上一次人工智能提出来,虽然专家系统很热,但是后来发现使用上它有很大局限性。

所以,关键是我们能不能找到真的有价值的场景。我们已经看到了,有很多点。很多技术作为一个学科方向或者一个新的大趋势,很多人关注,他需要更大的价值,这可能不只是技术领域的,更多的是需要产业。有一些愿意去尝试新生事物的行业企业或者是政府机构,在这方面一起跟技术提供者做合作,这样会产生很好的正反馈。其实现在是大家都挺担心的,从某种角度来讲觉得现在有点过热了。我是对这个东西是比较谨慎乐观的。至少有一点是说,我们看到有一些行业上,比如说Watson可以治癌症了,这是一个很好的案例,但是能不能推广到更多的疾病,或者是推广到更多的领域,这需要很多的时间。

CSDN:IBM的前瞻性技术研究,从论文发表到成熟应用,您认为距离有多远?如何缩短这一过程?

苏中:传统的技术进入软件研发再变成产品的周期大概是需要十年的,现在技术日新月异,可能十个月都太长了。IBM不希望我们的技术发明在一二十年以后才被拿出来用。

很多时候,技术人员有很多假想,比如说我们做一个算法,很多假定在现实当中都是不存在的,甚至说这个技术本身没有价值,所以我们特别鼓励技术人员是直接去第一线,用技术人员的眼光看到真正实在的问题。

换句话说,我们也会做很多基础性的研究,更多的是说我们的研究更快地解决现实的问题。所以这里面是长期和短期平衡的问题,这也是IBM研究部门的一个特点。