像生物一样人工智能正在学习像地球上的生命

来源：智能建筑时间：2023/11/8

数亿年的进化使我们的星球拥有各种各样的生命形式，每一种都以自己的方式生存。每个物种都经过进化，发展出与生俱来的技能、学习能力和确保其在环境中生存的身体形态。

但是，尽管受到自然和进化的启发，人工智能领域主要集中在单独创建智能元素，并在开发后将它们融合在一起。虽然这种方法取得了很好的结果，但它也限制了AI代理在一些基本技能中的灵活性，即使是最简单的生命形式。

在科学杂志《自然》上发表的一篇新论文中，斯坦福大学的人工智能研究人员提出了一种新技术，可以帮助采取措施，克服其中的一些限制。这项名为“深度进化强化学习”的新技术，使用复杂的虚拟环境和强化学习，来创建可以在物理结构和学习能力上同时进化的虚拟代理。这些发现可能对人工智能和机器人研究的未来产生重要影响。

一、进化很难模拟

在自然界中，身体和大脑是一起进化的。跨越许多代，每个动物物种都经历了无数的突变循环，以长出四肢、器官和神经系统，以支持其在环境中所需的功能。

蚊子有热视觉来发现体温。蝙蝠有翅膀可以飞，有回声定位装置可以在黑暗的地方导航。海龟有鳍状肢可以游泳，并且有一个磁场探测器系统可以长途跋涉。人类有一个直立的姿势，可以解放他们的手臂，让他们看到遥远的地平线，可以操纵物体的手和灵活的手指，以及使他们成为地球上最好的社会生物和问题解决者的大脑。

有趣的是，所有这些物种都是数十亿年前出现在地球上的第一个生命形式的后代。基于环境造成的选择压力，那些第一批生物的后代向许多不同的方向进化。

研究生命和智力的进化很有趣。但复制它是极其困难的。一个想要以与进化相同的方式重新创造智能生命的AI系统必须搜索一个非常大的可能形态空间，这在计算上非常昂贵。它需要大量并行和连续的试错循环。

AI研究人员使用多种捷径和预先设计的功能来克服其中一些挑战。例如，他们修复人工智能或机器人系统的架构或物理设计，并专注于优化可学习参数。另一个捷径是使用拉马克而不是达尔文进化，其中AI代理将他们学习的参数传递给他们的后代。

另一种方法是分别训练不同的AI子系统（视觉、运动、语言等），然后在最终的AI或机器人系统中将它们组合在一起。虽然这些方法加快了过程并降低了训练和进化AI代理的成本，但它们也限制了可以实现的灵活性和结果的多样性。

二、深度进化强化学习

在他们的新工作中，斯坦福大学的研究人员旨在使人工智能研究更接近真正的进化过程，同时尽可能降低成本。“我们的目标是阐明环境复杂性、进化形态和智能控制的可学习性之间关系的一些原则，”他们在论文中写道。

他们的框架称为深度进化强化学习。在DERL中，每个智能体都使用深度强化学习来获得在其生命周期内最大化其目标所需的技能。DERL使用达尔文进化来搜索最优解的形态空间，这意味着当新一代AI代理产生时，它们只会继承其父母的物理和建筑特征（以及轻微的突变）。没有学习到的参数会跨代传递。

研究人员写道：“DERL开启了进行大规模计算机实验的大门，以产生关于学习和进化如何协同创造环境复杂性、形态智能和控制任务的可学习性之间复杂关系的科学见解。”

对于他们的框架，研究人员使用了MuJoCo，这是一个提供高精度刚体物理模拟的虚拟环境。他们的设计空间被称为UNIversalaniMAL(UNIMAL)，其目标是创建能够在各种地形中学习运动和对象操纵任务的形态。

环境中的每个代理都由定义其四肢和关节的基因型组成。每个代理的直系后代继承了父母的基因型，并经历了可以创建新肢体、移除现有肢体或对诸如自由度或肢体大小等特征进行小的修改的突变。

每个代理都经过强化学习训练，以在各种环境中最大化奖励。最基本的任务是移动，其中智能体会因其在一个情节中移动的距离而获得奖励。物理结构更适合穿越地形的代理可以更快地学会使用四肢四处移动。

为了测试系统的结果，研究人员在三种类型的地形中生成了代理：平坦(FT)、可变(VT)和具有可修改对象的可变地形(MVT)。平坦的地形对代理的形态施加的选择压力最小。另一方面，多变的地形迫使代理开发更通用的物理结构，可以爬坡和绕过障碍物。MVT变体具有额外的挑战，即要求代理操纵对象以实现其目标。

三、DERL的好处

DERL的有趣发现之一是结果的多样性。进化AI的其他方法往往会趋同于一种解决方案，因为新代理直接继承了他们父母的体质和学习。但在DERL中，只有形态学数据会传递给后代，系统最终创建了一系列成功的形态学，包括两足动物、三足动物和有和没有手臂的四足动物。

同时，该系统显示了鲍德温效应的特征，这表明学习速度更快的智能体更有可能繁殖并将其基因传递给下一代。根据斯坦福大学的论文，DERL表明进化“选择更快的学习者，而没有任何直接的选择压力”。

研究人员写道：“有趣的是，这种形态学鲍德温效应的存在，可以在未来的研究中被利用来创建具有较低样本复杂性和较高泛化能力的实体代理。”

最后，DERL框架还验证了更复杂的环境将产生更智能的代理的假设。研究人员在八种不同的任务中测试了进化后的智能体，包括巡逻、逃脱、操纵物体和探索。他们的研究结果表明，总的来说，在可变地形中进化的智能体比只经历过平坦地形的AI智能体学习速度更快，表现更好。

他们的发现似乎与DeepMind研究人员的另一个假设一致，即复杂的环境、合适的奖励结构和强化学习最终会导致各种智能行为的出现。

DERL环境只有现实世界复杂性的一小部分。研究人员写道：“虽然DERL使我们能够在扩展进化环境的复杂性方面向前迈出重要一步，但未来工作的一个重要方向将涉及设计更开放、物理现实和多智能体的进化环境。”

四、总结

未来，研究人员将扩大评估任务的范围，以更好地评估代理如何增强他们学习人类相关行为的能力。这项工作可能对人工智能和机器人技术的未来产生重要影响，并推动研究人员使用更类似于自然进化的探索方法。

“我们希望我们的工作鼓励在其他环境中进一步大规模探索学习和进化，从而为快速学习的智能行为的出现提供新的科学见解，以及我们在机器中实例化它们的能力方面的新工程进展，”研究人员写。