强化学习笔记
这不是一个完整的笔记,而是作为一个 attached link 附在 Zotero 上以做补充。
使用的教材:
https://github.com/MathFoundationRL/Book-Mathematical-Foundation-of-Reinforcement-Learning/tree/main
Bellman equation
关于式 2.7 的一些解释。
数学
这两个式子相等,是因为它们本质上是对同一组项进行求和,只是交换了求和的顺序。
在数学中,对于有限项的(或者绝对收敛的)双重求和,求和的顺序是可以任意交换的,这基于加法的交换律和结合律。
1. 第一个式子:
- 我们看内部的和 $\sum_{a \in A} \dots$ 。$v_\pi(s’)$ 位于这个和的外部。
- 由于 $v_\pi(s’)$ 不依赖于求和变量 $a$,我们可以将其移到内部求和的里面(把它当作一个系数):
- 现在,这就是一个标准的双重求和。它在对所有 $s’ \in S$ 和 $a \in A$ 的组合进行求和,求和的项是 $v_\pi(s’) p(s’|s, a)\pi(a|s)$。
2. 第二个式子:
- 我们看内部的和 $\sum_{s’ \in S} \dots$ 。$\pi(a|s)$ 位于这个和的外部。
- 由于 $\pi(a|s)$ 不依赖于求和变量 $s’$,我们也可以将其移到内部求和的里面:
- 根据乘法交换律,求和的项 $\pi(a|s) p(s’|s, a)v_\pi(s’)$ 与第一个式子中的项 $v_\pi(s’) p(s’|s, a)\pi(a|s)$ 是完全相同的。
- 所以,这同样是一个双重求和,它也在对所有 $s’ \in S$ 和 $a \in A$ 的组合进行求和。
结论:
两个式子实际上都在计算同一个总和:
这就像计算一个表格中所有数字的总和:
- 第一个式子是“先按行求和,再把每行的结果加起来”。
- 第二个式子是“先按列求和,再把每列的结果加起来”。
在强化学习中的理解
在强化学习的背景下(例如贝尔曼期望方程),这两个式子都用来计算从状态 $s$ 出发并遵循策略 $\pi$ 时,下一个状态的期望价值。
第二个式子(更直观):
- 内部 ( … ):计算在状态 $s$ 采取某个特定动作 $a$ 后,能转移到的下一个状态 $s’$ 的期望价值。
- 外部 $\sum_{a \in A} \pi(a|s) \dots$:因为你遵循策略 $\pi$,你会在 $s$ 处以 $\pi(a|s)$ 的概率选择动作 $a$。所以你用这个概率对所有可能的动作 $a$ 带来的期望价值进行加权平均。
第一个式子(数学等价):
- 内部 ( … ):计算从状态 $s$ 出发,最终转移到某个特定下一个状态 $s’$ 的总概率。这需要遍历所有可能导致 $s’$ 的动作 $a$,并将它们的路径概率($\pi(a|s) \times p(s’|s, a)$)相加。
- 外部 $\sum_{s’ \in S} v_\pi(s’) \dots$:用每个可能的下一个状态 $s’$ 的价值 $v_\pi(s’)$ 乘以你到达它的总概率,然后把所有 $s’$ 的结果加起来。
Examples for illustrating the Bellman equation
具体的代入方法:
Matrix-vector form of the BOE
和标量形式的联系:
Contraction mapping theorem
Updating policies more efficiently
Temporal-Difference Methods
一些引入的例子:
Off-policy vs on-policy
Deep Q-learning
原文中的神经网络(下)和简化版本(上)对比:
Policy Gradient Methods - Gradients of the metrics
具体的推导参考书中过程。
Actor-Critic Methods - The off-policy policy gradient theorem
这里不是 $\pi$,而是 $\beta$,它是一个固定的值。所以这里就没有什么探索,就是充分的利用。分母是不可变的。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 dropsong's!
评论

















