🤖 智能体强化学习发展路线图
Reinforcement Learning for Agents: 1957 - 2025
📚 1950s-2000s 理论奠基期
1957
Bellman 动态规划
Richard Bellman 提出动态规划和 Bellman 方程,奠定序贯决策的数学基础
1989
Q-Learning
Christopher Watkins 提出 Q-Learning,实现无模型的最优策略学习
1992
TD-Gammon
Gerald Tesauro 用 TD 学习训练西洋双陆棋 AI,早期神经网络 + RL 成功案例
🚀 2013-2017 深度强化学习崛起
2013
DQN
DeepMind 首次将深度网络与 Q-Learning 结合,在 Atari 游戏达到人类水平
2016
AlphaGo
击败世界冠军李世石,AI 发展史上的里程碑事件
2016
A3C
异步并行训练框架,大幅提升训练效率
2017
PPO
OpenAI 提出,简单高效,成为 RLHF 的默认算法
🏭 2018-2022 大规模应用
2018
SAC
最大熵框架,提升探索能力,适合机器人控制
2019
OpenAI Five
击败 Dota 2 世界冠军,展示大规模多智能体协作
2019
AlphaStar
星际争霸 II 达到宗师段位,复杂实时策略博弈
2020
MuZero
无需环境规则即可学习,通用性更强
🧠 2023-2025 LLM 时代
2022
ChatGPT RLHF
RLHF 成为大模型对齐的标准范式
2023
DPO
直接偏好优化,无需奖励模型,大幅简化对齐流程
2024
AgentTuning
Agent 专用微调方法,提升工具调用和规划能力
2025
World Models + RL
DreamerV3 等世界模型,通过"想象"高效学习
🔀 三大技术分支
📊 Value-Based
Q-Learning (1989)
DQN (2013)
Double DQN
Dueling DQN
Rainbow (2017)
🎯 Policy-Based
REINFORCE
TRPO (2015)
PPO (2017)
A3C (2016)
SAC (2018)
🌍 Model-Based
Dyna-Q
World Models (2018)
MuZero (2020)
DreamerV3 (2023)
IRIS (2024)
Generated by OpenClaw Agent Swarm | 2026-02-13