贝尔曼方程是强化学习中的核心概念，它描述了一个状态的价值与其后续状态价值之间的关系。下面我用一种直观的方式来解释它的推导过程。高中生都能看懂~

关键概念

想象一个智能体在环境中做决策，比如玩一个棋盘游戏。有两个关键概念回报和价值

回报

它从当前时刻 $t$ 开始，直到游戏结束，获得的所有奖励用 $R$ 表示集合起来，形成一个总收益，这就是 回报 , 用 $G_{t}$ 表示。由于未来的奖励不如眼前的奖励“实在”，我们会用一个 折扣因子 ( $γ$ ，通常取一个小于1的数，比如0.9 ) 给未来的奖励打折。所以，折扣回报的计算公式是

$G_{t} = R_{t} + γ R_{t + 1} + γ^{2} R_{t + 2} + \dots = \sum_{k = 0}^{\infty} γ^{k} R_{t + k}$

可以理解为，每一步都存在一个奖励，当前状态下总回报是所有后续步骤奖励的总和，并且通过折扣因子反应及时奖励最“值钱”，越往后奖励价值越低。

价值函数

一局游戏的胜负有时靠运气，单次游戏的回报（总收益）偶然性很大。要客观衡量一个状态（比如棋盘上的某个局面）的 真正价值，我们需要看很多次游戏，计算这个状态出发所能获得的回报期望，用高中知识来讲就是 当前状态 下，所有策略中能获得的 平均回报 。这个 期望(平均值) 就是该状态的价值。用公式表示就是:

$V (s) = E [G_{t} | S_{t} = s]$

其中：
$V (s)$ ：表示价值函数
$E$ ：表示期望
$G_{t} | S_{t} = s$ ：表示在 $s$ 状态下的回报 $G_{t}$

建立状态间的联系

贝尔曼方程的巧妙之处在于，它把一个大问题（计算整个游戏的总价值）分解成了眼前的一步和之后的所有步。这就像把整盘棋的价值，看作是你走下一步棋立刻得到的分数，加上你走完这步棋后新局面的价值（但新局面的价值要打点折）

分解回报
我们把总回报 $G_{t}$ 拆为两部分

$\begin{aligned} G_{t} & = R_{t} + γ R_{t + 1} + γ^{2} R_{t + 2} + \dots \\ = R_{t} + γ (R_{t + 1} + γ R_{t + 2} + \dots) & (其中 G_{t + 1} = R_{t + 1} + γ R_{t + 2} + γ^{2} R_{t + 3} + \dots) \\ = R_{t} + γ G_{t + 1} \end{aligned}$

带入价值函数
价值函数是回报的期望（平均值），所以我们将上面这个关系式代入价值函数的定义中

$V (s) = E [G_{t} | S_{t} = s] = E [R_{t + 1} + γ G_{t + 1} | S_{t} = s]$

根据期望的运算法则，和的期望等于期望的和，所以上式可以拆开：

$V (s) = E [R_{t + 1} + γ G_{t + 1} | S_{t} = s] = E [R_{t + 1} | | S_{t} = s] + γ E [G_{t + 1} | S_{t} = s]$

理解等号右边两项
- 第1项： $E [R_{t} | | S_{t} = s]$ 这是在状态 $s$ 下，能获得的即时奖励的期望，即时奖励的期望正是奖励函数的输出，即 $R (s)$
- 第2项： $γ E [G_{t + 1} | S_{t} = s]$ ，这一项有点 tricky。它的意思是：在当前状态是 $s$ 的前提下，下一个状态 $s^{'}$ 的价值是多少？ 这需要考虑从 $s$ 出发，所有可能到达的下一个状态 $s^{'}$ ，以及到达每个 $s^{'}$ 的概率。然后，对每个可能的 $s^{'}$ ，乘以它本身的价值 $V (s^{'})$ ，最后再求平均。这个过程可以借助 全概率公式 来理解。
利用马尔可夫性质
为了简化计算，我们假设环境具有“马尔可夫性”，即未来只取决于现在，与过去无关。这意味着，从 $s$ 转移到 $s^{'}$ 的概率只取决于 $s$ 本身，和我们之前是怎么走到 $s$ 的没关系。这个假设使得第二项可以清晰地写成

$γ \sum_{s^{'}} P (s^{'} | s) V (s^{'})$

即对所有可能的下一个状态，用转移概率加权其价值

最终结论：贝尔曼方程

将上面的分析组合起来，我们就得到了著名的贝尔曼方程：

$V (s) = R (s) + γ \sum_{s^{'}} P (s^{'} | s) V (s^{'})$

这个公式非常直观地告诉我们：

任何一个状态 $s$ 的价值，都由两部分组成 ：
1. 即时奖励：离开这个状态时立刻能获得的平均收益 $R (s)$ 。
2. 未来奖励的折扣价值：考虑所有可能到达的下一个状态 $s^{'}$ ，用到达 $s^{'}$ 的概率 $P (s^{'} | s)$ 进行加权，再乘以 $s^{'}$ 本身的价值 $V (s^{'})$ 。因为这是未来的收益，所以整体要乘以一个折扣因子 $γ$

矩阵形式

若一个马尔可夫奖励过程一共有 $n$ 个状态，即 $S = s_{1}, s_{2}, \dots$ ，当我们考虑所有状态

${\begin{array}{lr} V (s_{1}) & = R (s_{1}) + γ [P (s_{1} | s_{1}) V (s_{1}) + P (s_{2} | s_{2}) V (s_{2}) + \dots + P (s_{n} | s_{1}) V (s_{n})], \\ V (s_{2}) & = R (s_{2}) + γ [P (s_{1} | s_{2}) V (s_{1}) + P (s_{2} | s_{2}) V (s_{2}) + \dots + P (s_{n} | s_{2}) V (s_{n})], \\ ⋮ \\ V (s_{n}) & = R (s_{n}) + γ [P (s_{1} | s_{n}) V (s_{1}) + P (s_{2} | s_{n}) V (s_{2}) + \dots + P (s_{n} | s_{n}) V (s_{n})] \end{array}$

我们将所有状态的价值表示成一个列向量 $V = [V (s_{1}), V (s_{2}), \dots]^{T}$ ，同理，将奖励函数写成一个列向量 $R = [R (s_{1}), R (s_{2}), \dots]^{T}$ 。于是我们可以将贝尔曼方程写成矩阵的形式：

$V = R + γ P V$

展开矩阵形式

${\begin{matrix} V (s_{1}) \\ V (s_{2}) \\ ⋮ \\ V (s_{n}) \end{matrix}} = {\begin{matrix} R (s_{1}) \\ R (s_{2}) \\ ⋮ \\ R (s_{n}) \end{matrix}} + γ {\begin{matrix} P (s_{1} | s_{1}) & P (s_{2} | s_{1}) \dots P (s_{n} | s_{1}) \\ P (s_{2} | s_{1}) & P (s_{2} | s_{2}) \dots P (s_{n} | s_{2}) \\ ⋮ & ⋮ \\ P (s_{n}) & P (s_{2} | s_{n}) \dots P (s_{n} | s_{n}) \end{matrix}} {\begin{matrix} P (s_{1} | s_{1}) & P (s_{2} | s_{1}) \dots P (s_{n} | s_{1}) \\ P (s_{2} | s_{1}) & P (s_{2} | s_{2}) \dots P (s_{n} | s_{2}) \\ ⋮ & ⋮ \\ P (s_{n}) & P (s_{2} | s_{n}) \dots P (s_{n} | s_{n}) \end{matrix}}$

得到

$\begin{array}{r} V - γ P V = R \\ (I - γ P) V = R \end{array}$

其中 $I$ 是 $n \times n$ 的单位矩阵。如果 $(I - γ P)$ 可逆，则价值向量的解析解为：

$V = (I - γ P)^{- 1} R$

以上解析解的计算复杂度是 $O (n)^{3}$ ，其中是状态个数，因此这种方法只适用很小的马尔可夫奖励过程
求解较大规模的马尔可夫奖励过程中的价值函数时，可以使用动态规划（dynamic programming）算法、蒙特卡洛方法（Monte-Carlo method）和时序差分（temporal difference）

一个简单例子

假设一个状态 $s$ 的即时奖励是 2（ $R (s) = 2$ ），折扣因子 $γ = 0.9$ 。从 $s$ 出发，有 70% 的概率去到一个价值为 10 的状态 $s 1$ ，有 30% 的概率去到一个价值为 1 的状态 $s 2$ 。

那么状态 $s$ 的价值计算如下：

$V (s) = 2 + 0.9 * (0.7 * 10 + 0.3 * 1) = 2 + 0.9 * (7 + 0.3) = 2 + 0.9 * 7.3 = 2 + 6.57 = 8.57$

贝尔曼方程最简推导

关键概念

回报

价值函数

建立状态间的联系

最终结论：贝尔曼方程

矩阵形式

一个简单例子

发表回复取消回复

贝尔曼方程最简推导

关键概念

回报

价值函数

建立状态间的联系

最终结论：贝尔曼方程

矩阵形式

一个简单例子

发表回复 取消回复

发表回复取消回复