首页 / 科技 / 正文

DeepMind用深度学习模仿大脑推理,预测编码智能推进一大步!

  新智元编译  

来源:quantamagazine

编译:大明

【新智元导读】预测编码理论认为,大脑的感知、运动控制、记忆及其他高级功能,取决于真实经历和大脑对未来的预测之间的差异。DeepMind新推出的“生成查询网络”模仿了大脑的预测编码机制,明显提升了预测系统的智能化水平。

 

上个月,人工智能公司DeepMind推出了一款新软件,可以在虚拟房间内拍摄一些物体的单个图像,并且能够在没有真人指导的情况下,从全新的有利视角推断出三维场景的样貌。这一系统名为生成查询网络(GQN),它可以成功模拟简单的视频游戏式迷宫的布局。

GQN有很典型的技术上的应用,不过它同样引发了神经科学家的关注,他们对用于学习如何执行任务的训练算法特别感兴趣。GQN能够由给定的图像生成关于场景样貌的预测,比如定位目标的位置,阴影在平面上的投射样式,在某些视角下,哪些区域是应该可见还是隐藏,并利用预测结果与真实观察结果之间的差异,来提高其未来预测的准确性。“正是现实与预测之间的差异,使得模型能够不断更新。”该项目负责人之一Ali Eslami说。

Eslami在该研究上的合作者、也是他在DeepMind的同事Danilo Rezende表示,“算法会改变预测模型的参数,所以下次遇到相同的情况时,它就不会显得那么惊讶了。”

长期以来,神经科学家一直怀疑大脑的运行方式也遵循与此类似的机制。(这些推测确实是启发GQN团队探寻这种方法的一部分原因。)根据这种“预测编码”(predictive coding)理论,在认知过程的每个层面,大脑都会产生一些关于应该自其下面的层级接收到哪些信息的模型和观点。这些观点被转化为关于在特定情况下的经历的预测,提供令这些经历说得通的最佳解释。然后将预测结果作为反馈发送到大脑的较低级的感觉区域。大脑将自己的预测结果与收到的实际感官输入内容进行比较,并“搪塞掉”任何差异或预测错误,并可以通过使用其内部模型来确定出现这种差异的可能的原因。(例如,我们可能根据某个内部模型将一张桌子视为一个由四条腿支撑的平面,但即使桌子被其他东西遮住了一半,我们仍然可以认得出这是一张桌子。)

 

对于给定的一张色块样式的二维图像(左),GQN人工智能能够推断出色块在空间中的三维排列(右)。该系统依赖于作为预测编码的神经科学理论的一些基本见解。图/DeepMind

无法解释的预测误差会通过更高级别的连接(作为“前馈”信号,而不是反馈)传递,这里,预测误差被认为是值得注意的现象,系统需要注意并做出相应处理。伦敦大学学院的Karl Friston说:“现在的关注点在于内部模型的调节,关注大脑动力学,来抑制预测中的错误。” Friston是著名神经科学家,也是预测编码假设的先驱之一。

在过去的十年中,认知科学家、哲学家和心理学家将预测编码作为一个令人信服的想法,尤其是用于描述感知的运行机制,而且将其作为一个关于整个大脑运行机制的更具雄心、包罗万象的理论。直到最近才有实验工具开始直接测试这一假设的具体机制,过去两年内发表的一些论文为该理论提供了惊人的证据。尽管如此,该理论仍然存在争议,最近,关于一些具有里程碑意义的实验结果是否可重复的争论,可能该理论存在争议的最好的证明。

咖啡、奶油与狗

“我喝咖啡喜欢加奶油和____。”这个句子用“糖”来填空似乎是很自然的。这也是加州大学圣迭戈分校的认知科学家Marta Kutas和Steven Hillyard的本意,他们在1980年进行了一系列的实验,他们在实验中将这句话逐词放到大屏幕上给人看,并记录下观众的大脑活动。只不过,出现的最后一个词并不是“糖”,而是“狗”。整个句子变成了:“我喝咖啡喜欢加奶油和狗。”

研究人员注意到,当研究对象看到“狗”这个出乎意料的词时,会出现更激烈的大脑反应,这些反应的具体特点为“特定模式的电活动”,称为“N400效应”(N400 effect),在“狗”一词出现大约400毫秒后达到峰值。但研究人员仍不清楚应如何解释这一现象。大脑作出反应,是因为这个词的意思在本句背景下是不合常理的?还是因为大脑没预料到这个词的出现,它违背了大脑对预期出现内容的预测?

2005年,Kutas和她的团队进行了另一项研究,表明后一种假设是对的。实验对象再次要求读屏幕上逐词出现的一句话:“这天微风阵阵,所以男孩子们出去放____。”因为“风筝”(a kite)似乎是最有可能用来补完句子的词,所以接下来实验对象的期望是冠词“a”,它没有内在意义,但表示接下来还会有一个词。而当参与者看到接下来的词是“an”时,他们就经历了N400效应,这似乎是因为大脑必须处理其期望与现实之间的不符。显然,这一效应与该词的含义以及处理出现的刺激本身的困难程度无关。

2005年的这一发现似乎非常适合预测编码框架理论。但今年4月,eLife发表的一篇论文称,有几个实验室无法重复这一实验结果。现在,也有研究人员开始做出回应,一些人声称重复实验的微妙结果仍然有利于基于预测的解释。

这种摇摆不定反映出关于预测编码理论的大部分争论。像Kusta这样的实验可以有许多种解释。比如可以通过除预测编码之外的模型来解释,并且这些实验缺乏足以证明假设的确实证据,因为它们没有深入研究实际的机制。虽然大脑会不断做出推论(并将这些推论与现实进行比较)的想法已构建得相当完善,但预测编码的支持者一直在设法证明,他们所主张的理论才是正确的,而且可以延伸到所有的认知领域。

贝叶斯大脑与高效计算

大脑一直建立和评估自己对持续的实际经历的预测,这一基本观点并不总是被视为理所当然的。20世纪的主流神经科学观点将大脑的功能描述为一个特征探测器:大脑记录刺激的存在,对其加以处理,然后发送信号来产生行为反应。通过特定细胞的活动来反映真实世界中刺激是否存在。例如,视觉皮层中的一些神经元会对视野中物体的边缘作出反应,还有的神经元的放电则会指示物体的方向、着色或阴影。

但事实证明,这个过程远非看上去那么简单。进一步的试验发现,比如,当大脑感知到一条越来越长的线时,即使线没有消失,针对线的探测神经元也会停止放电。事实上,有如此多的信息似乎通过神秘的自上而下的反馈连接来传递的,这表明实际上还有其他机制在发挥作用。

“如果大脑是一个推理机器、一个统计机构,那么,大脑也会犯下和统计学家同样的错误。”

伦敦大学学院 Karl Friston

这就是“贝叶斯大脑”(Bayesian brain)发挥作用的地方了,其总体框架可追溯到19世纪60年代。该理论提出,大脑会基于内部模型对现实世界进行概率性推断,主要是计算关于如何解释其感知的“最佳猜测”(这个说法符合贝叶斯统计规则,该规则对基于先验信息得出的事件概率进行了量化)。大脑并不是等待感官信息来推动认知,而是始终积极地构建关于世界运行方式的假设,并用这些假设来解释经验并填补缺失的数据。根据一些专家的说法,这就是为什么我们可能会认为感知是一种“受控制的幻觉”。

沿着这个理论,贝叶斯大脑也解释了为什么视幻觉会起作用:例如,两个点在屏幕上快速交替闪烁,看起来就像一个点来回移动,所以我们的大脑无意识地开始像对待一个目标一样对待它们。理解对象如何移动是一种更高层次的知识,但它从根本上影响了我们的感知方式。大脑只是填补某些信息的空白,来绘制一幅不完全准确的图片。在本例中,就是关于运动的信息, 

图示为一个著名的视幻觉,棋盘上的格子A看上去比格子B暗得多。但是,其实二者的灰度是完全相同的。大脑会根据附近格子的颜色和圆柱体投下的阴影位置,对棋盘的颜色做出推测。在本例中,这种推测会产生格子A和B的颜色不同的观点,而实际上,二者的颜色是完全相同的。(参考右图,将A和B连在一起即可,若将圆柱体隐藏,看上去还会更明显。)

但是,尽管生成模型和期望在大脑功能中发挥了明确的作用,科学家还没有确切地确定这些机制在神经回路级别上是如何发挥作用的。苏格兰爱丁堡大学的心理哲学教授Mark Sprevak说:“贝叶斯大脑理论对于根本性的机制是相对不可知的。”

输入预测编码理论提供了大脑如何成为“贝叶斯大脑”的特定公式。“预测编码”这个名字源于一种更有效地传输电信信号的技术:由于视频文件从当前帧到下一帧的过程中包含大量冗余,因此在压缩数据时,对每个图像中的每个像素进行编码是效率低下的。反之,对相邻帧之间的差异进行编码,然后进行反向处理来解释整个视频,这样就更合理。

1982年,科学家发现这一理念在神经科学中有一个很好的应用,因为它似乎可以解释视网膜中的神经元如何编码关于视觉刺激的信息,并将这些信息沿着视神经进行传播。该理论也被作为解释大脑奖励系统运作方式的原理:即多巴胺神经元会对预期奖励与实际奖励之间的不匹配度进行编码。研究人员表示,这些预测错误可以帮助动物对未来期望进行修正,并推动其决策过程。

尽管如此,科学家们大多仍将预测编码视为特定网络的特定过程。不过,功能磁共振成像测试和其他类型的实验已经开始改变这一观点。

通用框架

预测编码假设如此引人注目,部分原因在于它具备令人难以置信的解释力。“我觉得令人信服的是,在这个理论框架中,有不少事情都得到了解释,”爱丁堡大学逻辑和形而上学教授兼理论专家 Andy Clark说。

首先,该框架在单一计算过程中统一了感知和运动控制。这两者基本上相当于同一枚硬币的两面:无论是感知还是运动控制,大脑都以不同的方式将预测误差降到了最低。对于感知来说,就是校正了内部模型。对于运动控制来说,就是实际的环境。(对于后者,可以想象一下,比如你现在想要举手,如果这时你的手还没有举起来,那么这种差异就会产生很大的预测错误。而你只要把手移动一下,就把预测错误降到了最低。)

迄今为止,在感知和运动控制方面的实验为预测编码理论提供了最有力的证据。例如,在上个月出版的《神经科学期刊》上发表的一篇论文中,实验者让受试者在屏幕上读“kick”这个词,然后再让他们听失真的录音朗读“pick”。许多人将后者听成了“kick”,功能性核磁共振扫描显示,大脑对最初的“k”或“p”音表现出最强烈的反应 ,而这是与预测错误相关的音。如果大脑只是表现出其感知体验,那么最强的信号应该与“ick”相对应(因为它在屏幕上和音频中都有出现)。

不过,有很多人在努力扩大预测编码的应用范围,将其扩展至感知和动作领域之外,视为大脑中正在发生的一切的统一衡量标准。“这就像拥有可以构建不同策略的构建模块一样,”Clark说。不同的大脑区域只是对不同类型的预测进行交易。

Friston等人声称,这个理论也适用于更高级的认知过程,包括注意力和决策。最近关于前额皮质的计算工作表明,工作记忆和目标导向行为中也存在预测编码机制。一些研究人员推测,情感和情绪也可以用预测编码的术语来表达:情绪可能是大脑所表现出的用以实现内部信号(如体温,心率或血压)的预测误差最小化的状态。比如,如果大脑认识到自身的情绪激动,那么也就知道了所有这些因素都在上升。也许这也就是“自我”的概念得以出现的原因。

 

几十年来,伦敦大学学院的神经科学家Karl Friston一直在完善预测编码假设的关键原则。他认为,理论不仅可以解释感知,还可以解释更高层次的认知过程。

以这种思路取得的大部分成果都集中在预测编码对神经精神系统和发育障碍的解释上。Friston说:“我认为,如果大脑是一台推理机器,一个统计机构的话,那么它就会犯下和统计学家们相同的错误。”也就是说,大脑也可能会因为过于重视或过于轻视预测和预测错误,导致得出错误的推论。

比如自闭症的特征可能就是,无法忽略与大脑的最低处理层级上的感觉信号相关的预测误差。这可能导致对感觉的关注,对重复和可预测性的需求,对某些幻想的敏感以及其他诸多影响。而对于与精神分裂症等幻觉相关的疾病来说,情况可能正好相反:大脑可能会过多关注自身对正在发生的事情的预测,而对与这些预测相矛盾的感官信息关注不足。(专家们很快就要提醒你,自闭症和精神分裂症太复杂了,不能简化为一种解释或机制。)

耶鲁大学医学院的临床神经科学家Philip Corlett说:“其中最重要的部分是向我们展示了我们的心理功能是多么脆弱。” Corlett实验室的实验在健康受试者中建立了新的“信念”,鼓励他们对之前经历的刺激产生幻觉。 (例如,在一项实验中,科学家们让参与者将某个声音与某个视觉图像联系起来。当他们看到图像时,即使实际上根本没有声音,受试者也会继续听到声音。)研究人员正试图解开这些看法是如何转化为感知的。通过这些研究,“我们认为有证据表明感知和认知并不是那么泾渭分明,”Corlett说。 “新的看法可以通过教学获得,可以改变你原来的看法。”

但当时的证据还没能证明他的结论,而现在可以了。

放大细节 仔细观察

“实验结果经常表明某个特定结果与预测处理理论兼容,但该理论并不是对结果的最佳解释,”Sprevak说。预测处理理论在认知科学中被广泛接受,但“在系统神经科学领域,它仍然是个弱者。”瑞士弗里德里希·迈瑟生物医学研究所的神经科学家Georg Keller说。他的实验室正试图用更确凿的证据改变这一现状。

 

弗里德里希·米歇尔生物医学研究所的神经科学家Georg Keller一直致力于揭示预测编码假设的机制性证据。

在去年在《神经元》期刊上发表的一项研究中,Keller和他的同事观察到小鼠视觉系统中神经元随着时间的推移会变得具有预测性。这个发现始于一场意外,当时他们在视频游戏中训练老鼠,却发现在虚拟世界的方向已经乱了。通常在实验时, 老鼠左转时的视野都会向右侧移动,反之亦然。但有人无意中颠倒了研究人员在研究中使用的虚拟世界的方向,左和右翻转过来了,因此小鼠左转时的视野也向左移动了。研究人员意识到他们可以利用这次事故。他们监测了表现出这种视觉流动的大脑信号,结果发现随着小鼠学习倒置环境的规则,大脑信号也慢慢出现了变化。Keller说:“这些信号看起来像是对向左方向视觉流的预测。”

如果信号只是小鼠视觉体验的感官表现,那么这些信号就会立即在虚拟世界中出现翻转。而如果是运动信号,则根本不会翻转。“实际上是识别预测,” Keller说。 “是对给定运动下视觉流的预测。”

“这项研究提供了一种以前未发现的证据,”克拉克说。 “这是一个非常局部的,逐单元、逐层的演示,说明预测编码模型是目前最合适的模型。”

“在该系统中发现预测错误,并找到预测的具体内容是很令人兴奋的,”该论文的第一作者、德国哥廷根欧洲神经科学研究所的神经科学家Caspar Schwiedrzik说。

德国马普经验美学研究所的研究员Lucia Melloni表示,她的团队逐步发现,这类实验结果与目前从人类收集的神经元数据中的预测误差的解释一致。

寻找更多预测机器的竞赛

不是每个人都认为大脑预测编码的理论正越来越强大。一些科学家同意这个理论可以解释认知的某些方面,但不同意用它来解释一切想法。也有人甚至连前者都不同意。对于纽约大学心理学教授David Heeger来说,重要的是要区分“预测编码”和“预测处理”,他认为前者关乎信息传输的效率,他将后者定义为随时间的推移而做出的预测。他说:“目前的文献中存在很多混淆之处,因为这些东西都被认为是同一种汤的一部分。其实并不一定如此,现在的方式也不一定是最佳研究方式。”比如,其他类型的贝叶斯模型可能在某些情况下可以提供更准确的大脑功能描述。

然而,该领域的许多专家都认为,这项研究有可能激发机器学习的应用。目前,绝大多数人工智能研究都不涉及预测编码,而是关注其他类型的算法。

但弗里斯顿认为,在深度学习环境中制定预测编码架构可以使机器更接近智能。

DeepMind的GQN就是发挥这种潜力的一个很好的例子。去年,苏塞克斯大学的研究人员甚至使用虚拟现实和人工智能技术(其中包括预测编码特征),打造了一台所谓的“幻觉机器”,这种工具能够模仿通常由迷幻药物导致的幻觉状态。 

通过比较预测编码模型与其他技术的表现,机器学习的进步可用于提供关于大脑中发生的事情的新见解。至少,将预测编码引入人工智能系统可以明显提高这些机器的智能水平。

但在此之前,我们还有很多工作要做。科学家需要继续进行像Keller、Schwiedrzik等人正在进行的研究,格拉斯哥大学的神经生理学家Lars Muckli表示,预测性编码“对于神经科学来说就像是进化对生物学一样重要”,他对完善该理论做了大量工作。但就目前而言,Sprevak指出,“现有证据仍然不足以让我们下定论。”

原文地址:

https://www.quantamagazine.org/to-make-sense-of-the-present-brains-may-predict-the-future-20180710/

即日起到8月19日,新智元限量发售若干早鸟票,点击阅读原文购票,与全球AI领袖近距离交流,见证全球人工智能产业跨越发展。

  • 新智元官网:http://www.aiera.com.cn/

    大会官网:http://aiworld2018.com/

    活动行购票链接:

    http://www.huodongxing.com/event/6449053775000

    活动行购票二维码: