欢迎来到AI体验时代

Today

作者:David Silver, Richard S. Sutton

摘要

我们正站在人工智能新时代的门槛上,这个时代承诺将实现前所未有的能力水平。一代新的智能体将主要通过“体验”学习,获得超越人类的能力。本文探讨了这个即将到来的时代的关键特征。


人类数据的时代

近年来,人工智能(AI)通过大量人类生成的数据进行训练,并结合专家示范和偏好微调,取得了显著进步。这种方法的典范是大型语言模型(LLMs),它们在通用性方面取得了飞跃式的成就。一个大型语言模型现在可以执行从写诗、解物理题、诊断医疗问题,到总结法律文件等广泛任务。

然而,尽管模仿人类足以在许多方面达到令人满意的水平,但仅凭这种方式并不足以实现突破性的能力。这些模型倾向于复制现有的人类思维方式和知识框架,限制了它们在创造新知识或发现新策略方面的能力。


AI 自主体验时代的到来

我们相信,人工智能的下一个前沿将由能够通过体验进行学习的智能体所定义。这些智能体将不再依赖于人类示范,而是通过与环境的交互、自我尝试和从失败中学习的方式来发展能力。这一过程更类似于人类婴儿或动物通过自身探索世界来获得知识。

这种范式转变已在强化学习(Reinforcement Learning)领域中得到验证。强化学习智能体已经在游戏、机器人控制和其他挑战性任务中,展现出超越人类专家的能力。

体验学习具有几个关键优势:

  1. 发现性学习:智能体能够发现人类尚未探索到的解决方案;
  2. 适应性:在面对新环境或规则变化时,智能体可以重新学习并适应;
  3. 持续进步:不再受到固定数据集限制,智能体可以通过持续互动不断进化;
  4. 更少依赖人类知识:尤其在知识稀缺或人类偏见明显的领域,体验学习可避免继承这些偏差。

自主能力的兴起

在体验时代中,智能体将获得自主能力——也就是不依赖人类指令,而是通过自主目标制定、策略发现和学习来完成任务。与依赖人类标签、提示或反馈的模型不同,这类智能体将:

这种能力源于强化学习、进化算法、规划与搜索等方法的结合,它们共同支持智能体以更加“类生命”的方式成长。

例如,一些围棋智能体已显示出人类从未使用过的策略;机器人在现实世界中学会了非传统但更有效的动作;虚拟智能体则能在复杂的三维世界中,从基础动作发展出具备导航、规划甚至社会行为能力的复杂策略。


自主体验优于模仿

尽管模仿学习——从人类演示中学习——在早期阶段非常有用,但它存在明显的限制:

相比之下,基于体验的学习方法可以:

此外,体验学习还能促使智能体发展出一种“直觉”或“理解”——不只是记住例子,而是掌握背后的规律和结构。


向通用智能迈进

体验学习的真正潜力在于它为实现**通用人工智能(AGI)**铺平了道路。人类智能之所以强大,是因为我们能够:

一个通过体验成长的智能体,可以展现出与人类类似的适应性与创造力。它能够:

从 AlphaGo 到 AlphaZero,再到 MuZero,我们已经看到了体验学习如何一步步摆脱对人类知识的依赖,走向完全自主的智能系统。


结语:AI 自主体验时代的愿景

我们正迈入一个以体验为核心的人工智能新时代。在这个时代里,智能体将不再仅仅复制人类的行为,而是能够:

这种范式的转变,将推动 AI 在多个领域产生变革,也促使我们重新思考智能的本质。

未来的智能体将不再只是“工具”,它们将成为合作者探索者,甚至是发现者,或将引领我们进入真正的通用智能时代。


致谢

我们感谢那些为体验学习奠定基础的先驱者与研究者们。他们的工作不仅推动了技术前沿的发展,也拓展了我们对于智能、学习与意识的理解边界。

kkdemian
kkdemian
kkdemian