🤖 智能体强化学习发展路线图

Reinforcement Learning for Agents: 1957 - 2025

📚 1950s-2000s 理论奠基期
1957
Bellman 动态规划
Richard Bellman 提出动态规划和 Bellman 方程,奠定序贯决策的数学基础
1989
Q-Learning
Christopher Watkins 提出 Q-Learning,实现无模型的最优策略学习
1992
TD-Gammon
Gerald Tesauro 用 TD 学习训练西洋双陆棋 AI,早期神经网络 + RL 成功案例
🚀 2013-2017 深度强化学习崛起
2013
DQN
DeepMind 首次将深度网络与 Q-Learning 结合,在 Atari 游戏达到人类水平
2016
AlphaGo
击败世界冠军李世石,AI 发展史上的里程碑事件
2016
A3C
异步并行训练框架,大幅提升训练效率
2017
PPO
OpenAI 提出,简单高效,成为 RLHF 的默认算法
🏭 2018-2022 大规模应用
2018
SAC
最大熵框架,提升探索能力,适合机器人控制
2019
OpenAI Five
击败 Dota 2 世界冠军,展示大规模多智能体协作
2019
AlphaStar
星际争霸 II 达到宗师段位,复杂实时策略博弈
2020
MuZero
无需环境规则即可学习,通用性更强
🧠 2023-2025 LLM 时代
2022
ChatGPT RLHF
RLHF 成为大模型对齐的标准范式
2023
DPO
直接偏好优化,无需奖励模型,大幅简化对齐流程
2024
AgentTuning
Agent 专用微调方法,提升工具调用和规划能力
2025
World Models + RL
DreamerV3 等世界模型,通过"想象"高效学习

🔀 三大技术分支

📊 Value-Based

  • Q-Learning (1989)
  • DQN (2013)
  • Double DQN
  • Dueling DQN
  • Rainbow (2017)

🎯 Policy-Based

  • REINFORCE
  • TRPO (2015)
  • PPO (2017)
  • A3C (2016)
  • SAC (2018)

🌍 Model-Based

  • Dyna-Q
  • World Models (2018)
  • MuZero (2020)
  • DreamerV3 (2023)
  • IRIS (2024)