The Future of AI

Reinforcement Learning

探索智能体如何在错综复杂的环境交互中,通过试错与奖励进化出超越人类的决策智慧。

开始探索

1. 定义与核心思想 (Core Concepts)

强化学习 (Reinforcement Learning, RL) 是机器学习的一个子领域,它关注的是智能体 (Agent) 如何在环境 (Environment) 中采取行动 (Action),以最大化某种累积奖励 (Cumulative Reward)。

想象一下训练一只小狗坐下:当它做对时,你给它零食(奖励);当它乱跑时,你忽略或责备(无奖励或惩罚)。小狗通过不断的试错 (Trial-and-Error),最终学会了“听到指令坐下”这一最优策略。强化学习正是通过这种交互式的学习范式,让机器学会解决复杂决策问题。

监督学习 Supervised X,Y 输入 + 标签 "老师教你" 无监督学习 Unsupervised 仅输入数据 "自学归纳" 强化学习 Reinforcement 动作 + 奖励 "试错进化"
图1:三大学习范式核心差异对比 (Figure 1: Comparison of Learning Paradigms)

2. 核心组件 (Core Components)

强化学习系统由以下几个关键要素构成,它们共同定义了问题的边界和解决方式。

关键角色 (Roles)

  • 智能体 (Agent): 做出决策的主体(如机器人、AlphaGo、你的游戏角色)。它包含“大脑”——策略 (Policy)。
  • 环境 (Environment): 智能体交互的外部世界(如物理世界、围棋棋盘、游戏引擎)。它接收动作并反馈状态和奖励。
智能体 (Agent) 策略 (Policy) π 价值函数 (Value) V/Q 环境 (Environment) 状态转移 (Dynamics) 动作 (Action) A_t 状态 (State) S_t 奖励 (Reward) R_t
图2:强化学习核心组件与交互流 (Figure 2: Core Components & Interaction Flow)

交互信号 (Signals)

  • 状态 (State, S): 环境的当前快照。比如棋盘上所有棋子的位置,或者机器人的摄像头图像。
  • 动作 (Action, A): 智能体在当前状态下做出的选择。比如“向左移动”、“放在位置(3,4)”。
  • 奖励 (Reward, R): 环境给出的即时反馈分数。吃豆子+10分,撞墙-100分。
    注意:奖励是标量(单一数值),通过累积它,智能体知道什么行为是好的。

大脑与远见 (Brain & Vision)

  • 策略 (Policy, π): 智能体的行为准则。如果是通过查表决定动作,就是表格;如果是神经网络,就是网络参数。它映射 S -> A
  • 价值函数 (Value Function, V): 对未来的预测。它不看眼前的奖励,而是估算“如果我在这个状态,未来总共能拿多少分”。这是智能体的长远目光