您的位置:首页>知识>

DeepMind的新强化学习系统是迈向通用AI的一步吗

导读 2022年1月18日整理发布:深度强化学习模型——已经掌握围棋、星际争霸 2 和其他游戏的那种人工智能系统——的主要挑战之一是它们无法将自

2022年1月18日整理发布:深度强化学习模型——已经掌握围棋、星际争霸 2 和其他游戏的那种人工智能系统——的主要挑战之一是它们无法将自己的能力推广到训练领域之外。这一限制使得将这些系统应用到现实环境中变得非常困难,在现实环境中,情况比训练 AI 模型的环境更加复杂和不可预测。

但根据一篇关于他们新的“开放式学习”计划的博客文章,人工智能研究实验室 DeepMind 的科学家声称已经采取了“第一步来训练能够玩许多不同游戏的代理,而无需人类交互数据”。他们的新项目包括一个具有逼真动态的 3D 环境和可以学习解决各种挑战的深度强化学习代理。

根据 DeepMind 的 AI 研究人员的说法,新系统是“朝着创建更通用的代理迈出的重要一步,这些代理具有在不断变化的环境中快速适应的灵活性。”

该论文的研究结果表明,在将强化学习应用于复杂问题方面取得了一些令人印象深刻的进步。但它们也提醒人们,当前的系统距离实现人工智能社区几十年来一直觊觎的那种通用智能能力还有多远。

深度强化学习的脆弱性

强化学习的主要优势在于它能够通过采取行动和获得反馈来发展行为,类似于人类和动物通过与环境互动来学习的方式。一些科学家将强化学习描述为“第一个智能计算理论”。

强化学习和深度神经网络的结合,被称为深度强化学习,一直是人工智能许多进步的核心,包括 DeepMind 著名的 AlphaGo 和AlphaStar 模型。在这两种情况下,人工智能系统都能够在各自的比赛中击败人类世界冠军。

但强化学习系统也因其缺乏灵活性而闻名。例如,可以在专家级别玩星际争霸 2 的强化学习模型将无法在任何能力级别玩具有类似机制的游戏(例如,魔兽争霸 3)。即使是对原始游戏的微小改动也会大大降低 AI 模型的性能。

“这些代理通常被限制只玩他们接受训练的游戏——而游戏的确切实例可能会有所不同(例如布局、初始条件、对手),代理必须满足的目标在训练和测试之间保持不变。偏离这一点可能会导致代理的灾难性失败,”DeepMind 的研究人员在一篇论文中写道,该论文提供了他们开放式学习的全部细节。

另一方面,人类非常擅长跨领域转移知识。

Xland 环境

超大环境

DeepMind 新项目的目标是创建“一种人工代理,其行为超出了它所训练的游戏集的范围。”

为此,该团队创建了 XLand,这是一个可以生成由静态拓扑和可移动对象组成的 3D 环境的引擎。游戏引擎模拟刚体物理并允许玩家以各种方式使用对象(例如,创建坡道、阻挡路径等)。

Xland 是一个丰富的环境,您可以在其中训练代理执行几乎无限数量的任务。Xland 的主要优势之一是能够使用编程规则自动生成大量环境和挑战来训练 AI 代理。这解决了机器学习系统的关键挑战之一,机器学习系统通常需要大量手动管理的训练数据。

根据博客文章,研究人员在 Xland 中创建了“数十亿个任务,涉及各种游戏、世界和玩家”。这些游戏包括非常简单的目标,例如在更复杂的环境中寻找对象,在这些环境中,人工智能代理会权衡不同奖励的好处和权衡。一些游戏包括涉及多个代理的合作或竞争元素。

深度强化学习

DeepMind 使用深度强化学习和一些巧妙的技巧来创建可以在 Xland 环境中茁壮成长的 AI 代理。

每个代理的强化学习模型接收世界的第一人称视图、代理的物理状态(例如,它是否持有一个对象)以及它的当前目标。每个代理都会微调其策略神经网络的参数,以最大化其对当前任务的奖励。神经网络架构包含一个注意机制,以确保代理可以平衡优化完成主要目标所需的子目标。

一旦代理掌握了当前的挑战,计算任务生成器就会为代理创建一个新的挑战。每个新任务都是根据代理的训练历史生成的,并且有助于将代理的技能分配给各种挑战。

DeepMind 还利用其庞大的计算资源(由其所有者 Alphabet Inc. 提供)并行训练大量智能体,并在不同智能体之间传输学习参数,以提高强化学习系统的一般能力。

强化学习代理的性能是根据他们完成尚未接受过培训的广泛任务的一般能力来评估的。一些测试任务包括众所周知的挑战,例如“夺旗”和“捉迷藏”。

根据 DeepMind 的说法,每个智能体在 XLand 内的 4,000 个独特世界中玩了大约 700,000 个独特的游戏,并在 340 万个独特的任务中经历了 2000 亿个训练步骤(在论文中,研究人员写道,1 亿个步骤相当于大约 30 分钟的训练) .

人工智能研究人员写道:“此时,我们的代理已经能够参与每一个程序生成的评估任务,除了少数即使是人类也无法完成的任务。” “我们看到的结果清楚地展示了整个任务空间的一般、零样本行为。”

零样本机器学习模型可以解决训练数据集中不存在的问题。在像 Xland 这样的复杂空间中,零样本学习可能意味着智能体已经获得了有关其环境的基本知识,而不是在特定任务和环境中记忆图像帧序列。

当研究人员试图针对新任务进行调整时,强化学习代理进一步表现出泛化学习的迹象。根据他们的发现,对新任务进行 30 分钟的微调就足以在使用新方法训练的强化学习代理中产生令人印象深刻的改进。相比之下,从头开始训练相同时间的智能体在大多数任务上的性能几乎为零。

高级行为

根据 DeepMind 的说法,强化学习代理表现出“启发式行为”的出现,例如工具使用、团队合作和多步规划。如果得到证实,这可能是一个重要的里程碑。深度学习系统经常因为学习统计相关性而不是因果关系而受到批评。如果神经网络能够发展出高级概念,例如使用物体创建坡道或造成遮挡,那么它可能会对机器人和自动驾驶汽车等深度学习目前苦苦挣扎的领域产生巨大影响。

但这些都是很大的假设,DeepMind 的研究人员对于对他们的发现得出结论持谨慎态度。“鉴于环境的性质,很难确定有意性——我们经常看到的行为似乎是偶然的,但我们仍然看到它们始终如一地发生,”他们在博客文章中写道。

但他们相信,他们的强化学习代理“了解他们身体的基础知识和时间的流逝,并且他们了解他们遇到的游戏的高级结构。”

这种基本的自学技能是人工智能社区备受追捧的另一个目标。

智力理论

DeepMind Xland 环境

DeepMind 的一些顶尖科学家最近发表了一篇论文,他们假设单一的奖励和强化学习足以最终达到人工智能(AGI)。科学家们认为,具有正确激励的智能代理可以开发各种能力,例如感知和自然语言理解。

尽管 DeepMind 的新方法仍然需要对强化学习代理进行多重工程奖励的训练,但这符合他们通过强化学习实现 AGI 的一般观点。

“DeepMind 在这篇论文中表明,单个 RL 代理可以开发智能以实现许多目标,而不仅仅是一个目标,”Pathmind 的首席执行官 Chris Nicholson 告诉TechTalks。“它在完成一件事时学到的技能可以推广到其他目标。这与人类智能的应用方式非常相似。例如,我们学会抓取和操纵物体,这是完成从敲锤子到整理床铺等目标的基础。”

尼科尔森还认为,该论文发现的其他方面暗示了一般智力的进步。“父母们会认识到,开放式探索正是他们的孩子学习如何穿越世界的方式。他们从橱柜里拿出一些东西,然后放回去。他们发明了自己的小目标——这对成年人来说似乎毫无意义——并且他们掌握了这些目标,”他说。“DeepMind 正在以编程方式为其在这个世界上的代理设定目标,而这些代理正在学习如何一一掌握这些目标。”

Nicholson 说,强化学习代理也显示出在他们自己的虚拟世界中发展具身智能的迹象,就像人类所拥有的那样。“这再次表明,人们学会通过和操纵的丰富且可塑的环境有利于通用智能的出现,智能的生物和物理类比可以指导人工智能的进一步工作,”他说。

南加州大学计算机科学副教授 Sathyanaraya Raghavachary 对 DeepMind 论文中的主张持怀疑态度,尤其是关于本体感觉、时间意识以及对目标和环境的高级理解的结论。

“即使是我们人类也没有完全了解我们的身体,更不用说那些 VR 代理了,”Raghavachary 在TechTalks的评论中说,并补充说,对身体的感知需要一个集成的大脑,该大脑是为适当的身体意识和空间定位而共同设计的。“时间的流逝也是如此——这也需要一个拥有过去记忆的大脑,以及与过去相关的时间感。他们(论文作者)的意思可能与智能体跟踪环境中的渐进变化有关,这些变化源于他们的行为(例如,由于移动紫色金字塔),即底层物理模拟器将产生的状态变化。

Raghavachary 还指出,如果智能体能够理解其任务的高级结构,他们将不需要 2000 亿步的模拟训练来达到最佳结果。

“底层架构缺乏实现他们总结指出的这三件事(身体意识、时间流逝、理解高级任务结构)所需的东西,”他说。“总体而言,XLand 只是'更多相同'。”

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。