欢迎来到AI体验时代

作者：David Silver, Richard S. Sutton

摘要

我们正站在人工智能新时代的门槛上，这个时代承诺将实现前所未有的能力水平。一代新的智能体将主要通过“体验”学习，获得超越人类的能力。本文探讨了这个即将到来的时代的关键特征。

近年来，人工智能（AI）通过大量人类生成的数据进行训练，并结合专家示范和偏好微调，取得了显著进步。这种方法的典范是大型语言模型（LLMs），它们在通用性方面取得了飞跃式的成就。一个大型语言模型现在可以执行从写诗、解物理题、诊断医疗问题，到总结法律文件等广泛任务。

然而，尽管模仿人类足以在许多方面达到令人满意的水平，但仅凭这种方式并不足以实现突破性的能力。这些模型倾向于复制现有的人类思维方式和知识框架，限制了它们在创造新知识或发现新策略方面的能力。

我们相信，人工智能的下一个前沿将由能够通过体验进行学习的智能体所定义。这些智能体将不再依赖于人类示范，而是通过与环境的交互、自我尝试和从失败中学习的方式来发展能力。这一过程更类似于人类婴儿或动物通过自身探索世界来获得知识。

这种范式转变已在强化学习（Reinforcement Learning）领域中得到验证。强化学习智能体已经在游戏、机器人控制和其他挑战性任务中，展现出超越人类专家的能力。

体验学习具有几个关键优势：

在体验时代中，智能体将获得自主能力——也就是不依赖人类指令，而是通过自主目标制定、策略发现和学习来完成任务。与依赖人类标签、提示或反馈的模型不同，这类智能体将：

这种能力源于强化学习、进化算法、规划与搜索等方法的结合，它们共同支持智能体以更加“类生命”的方式成长。

例如，一些围棋智能体已显示出人类从未使用过的策略；机器人在现实世界中学会了非传统但更有效的动作；虚拟智能体则能在复杂的三维世界中，从基础动作发展出具备导航、规划甚至社会行为能力的复杂策略。

尽管模仿学习——从人类演示中学习——在早期阶段非常有用，但它存在明显的限制：

相比之下，基于体验的学习方法可以：

此外，体验学习还能促使智能体发展出一种“直觉”或“理解”——不只是记住例子，而是掌握背后的规律和结构。

体验学习的真正潜力在于它为实现**通用人工智能（AGI）**铺平了道路。人类智能之所以强大，是因为我们能够：

一个通过体验成长的智能体，可以展现出与人类类似的适应性与创造力。它能够：

从 AlphaGo 到 AlphaZero，再到 MuZero，我们已经看到了体验学习如何一步步摆脱对人类知识的依赖，走向完全自主的智能系统。

我们正迈入一个以体验为核心的人工智能新时代。在这个时代里，智能体将不再仅仅复制人类的行为，而是能够：

这种范式的转变，将推动 AI 在多个领域产生变革，也促使我们重新思考智能的本质。

未来的智能体将不再只是“工具”，它们将成为合作者、探索者，甚至是发现者，或将引领我们进入真正的通用智能时代。

我们感谢那些为体验学习奠定基础的先驱者与研究者们。他们的工作不仅推动了技术前沿的发展，也拓展了我们对于智能、学习与意识的理解边界。