作者:David Silver, Richard S. Sutton
摘要
我们正站在人工智能新时代的门槛上,这个时代承诺将实现前所未有的能力水平。一代新的智能体将主要通过“体验”学习,获得超越人类的能力。本文探讨了这个即将到来的时代的关键特征。
人类数据的时代
近年来,人工智能(AI)通过大量人类生成的数据进行训练,并结合专家示范和偏好微调,取得了显著进步。这种方法的典范是大型语言模型(LLMs),它们在通用性方面取得了飞跃式的成就。一个大型语言模型现在可以执行从写诗、解物理题、诊断医疗问题,到总结法律文件等广泛任务。
然而,尽管模仿人类足以在许多方面达到令人满意的水平,但仅凭这种方式并不足以实现突破性的能力。这些模型倾向于复制现有的人类思维方式和知识框架,限制了它们在创造新知识或发现新策略方面的能力。
AI 自主体验时代的到来
我们相信,人工智能的下一个前沿将由能够通过体验进行学习的智能体所定义。这些智能体将不再依赖于人类示范,而是通过与环境的交互、自我尝试和从失败中学习的方式来发展能力。这一过程更类似于人类婴儿或动物通过自身探索世界来获得知识。
这种范式转变已在强化学习(Reinforcement Learning)领域中得到验证。强化学习智能体已经在游戏、机器人控制和其他挑战性任务中,展现出超越人类专家的能力。
体验学习具有几个关键优势:
- 发现性学习:智能体能够发现人类尚未探索到的解决方案;
- 适应性:在面对新环境或规则变化时,智能体可以重新学习并适应;
- 持续进步:不再受到固定数据集限制,智能体可以通过持续互动不断进化;
- 更少依赖人类知识:尤其在知识稀缺或人类偏见明显的领域,体验学习可避免继承这些偏差。
自主能力的兴起
在体验时代中,智能体将获得自主能力——也就是不依赖人类指令,而是通过自主目标制定、策略发现和学习来完成任务。与依赖人类标签、提示或反馈的模型不同,这类智能体将:
- 自主提出问题;
- 自主设定目标;
- 自主评估结果;
- 并逐步建立起复杂的知识体系和技能组合。
这种能力源于强化学习、进化算法、规划与搜索等方法的结合,它们共同支持智能体以更加“类生命”的方式成长。
例如,一些围棋智能体已显示出人类从未使用过的策略;机器人在现实世界中学会了非传统但更有效的动作;虚拟智能体则能在复杂的三维世界中,从基础动作发展出具备导航、规划甚至社会行为能力的复杂策略。
自主体验优于模仿
尽管模仿学习——从人类演示中学习——在早期阶段非常有用,但它存在明显的限制:
- 模仿只能学到人类已经知道的事情;
- 它受限于人类表现的质量;
- 在陌生情境中,模仿学习的泛化能力较差;
- 也可能继承人类的偏见与错误。
相比之下,基于体验的学习方法可以:
- 发现全新的策略和知识;
- 在面对未知问题时表现出更强的适应性和创造性;
- 自我修正并持续进化;
- 打破人类固有范式,探索“超人类”的能力空间。
此外,体验学习还能促使智能体发展出一种“直觉”或“理解”——不只是记住例子,而是掌握背后的规律和结构。
向通用智能迈进
体验学习的真正潜力在于它为实现**通用人工智能(AGI)**铺平了道路。人类智能之所以强大,是因为我们能够:
- 在没有明确指令的情况下解决新问题;
- 在不同情境中灵活迁移经验;
- 通过失败不断调整策略;
- 最重要的是,我们通过经验学习,而不仅仅是通过模仿。
一个通过体验成长的智能体,可以展现出与人类类似的适应性与创造力。它能够:
- 发展出通用技能,而不仅仅是狭窄任务中的技巧;
- 进行跨任务迁移;
- 实现终身学习;
- 拥有目标驱动行为、规划能力和内在动机。
从 AlphaGo 到 AlphaZero,再到 MuZero,我们已经看到了体验学习如何一步步摆脱对人类知识的依赖,走向完全自主的智能系统。
结语:AI 自主体验时代的愿景
我们正迈入一个以体验为核心的人工智能新时代。在这个时代里,智能体将不再仅仅复制人类的行为,而是能够:
- 自主探索世界;
- 学习新的技能;
- 持续进化与适应;
- 并最终,发展出超越人类的能力与洞察力。
这种范式的转变,将推动 AI 在多个领域产生变革,也促使我们重新思考智能的本质。
未来的智能体将不再只是“工具”,它们将成为合作者、探索者,甚至是发现者,或将引领我们进入真正的通用智能时代。
致谢
我们感谢那些为体验学习奠定基础的先驱者与研究者们。他们的工作不仅推动了技术前沿的发展,也拓展了我们对于智能、学习与意识的理解边界。