🤖 智能体强化学习发展路线图

Reinforcement Learning for Agents: 1957 - 2025

📚 1950s-2000s 理论奠基期

1957

Bellman 动态规划

Richard Bellman 提出动态规划和 Bellman 方程，奠定序贯决策的数学基础

1989

Q-Learning

Christopher Watkins 提出 Q-Learning，实现无模型的最优策略学习

1992

TD-Gammon

Gerald Tesauro 用 TD 学习训练西洋双陆棋 AI，早期神经网络 + RL 成功案例

🚀 2013-2017 深度强化学习崛起

2013

DQN

DeepMind 首次将深度网络与 Q-Learning 结合，在 Atari 游戏达到人类水平

2016

AlphaGo

击败世界冠军李世石，AI 发展史上的里程碑事件

2016

A3C

异步并行训练框架，大幅提升训练效率

2017

PPO

OpenAI 提出，简单高效，成为 RLHF 的默认算法

🏭 2018-2022 大规模应用

2018

SAC

最大熵框架，提升探索能力，适合机器人控制

2019

OpenAI Five

击败 Dota 2 世界冠军，展示大规模多智能体协作

2019

AlphaStar

星际争霸 II 达到宗师段位，复杂实时策略博弈

2020

MuZero

无需环境规则即可学习，通用性更强

🧠 2023-2025 LLM 时代

2022

ChatGPT RLHF

RLHF 成为大模型对齐的标准范式

2023

DPO

直接偏好优化，无需奖励模型，大幅简化对齐流程

2024

AgentTuning

Agent 专用微调方法，提升工具调用和规划能力

2025

World Models + RL

DreamerV3 等世界模型，通过"想象"高效学习

🔀 三大技术分支

📊 Value-Based

Q-Learning (1989)
DQN (2013)
Double DQN
Dueling DQN
Rainbow (2017)

🎯 Policy-Based

REINFORCE
TRPO (2015)
PPO (2017)
A3C (2016)
SAC (2018)

🌍 Model-Based

Dyna-Q
World Models (2018)
MuZero (2020)
DreamerV3 (2023)
IRIS (2024)