1 min read 18 words Updated May 15, 2026 Created Jun 17, 2026

先说value based 类,这类方法缺点除了不能直接得到动作值输出,难以扩展到连续动作空间上之外,还存在高偏差 (High bias) 的问题,根据估算得到的 value function 与实际的值函数之间的误差是很难消除的。

核心就是使用一个模型来拟合 $R(a, s)$,也就是在 state 下某个 action 的价值(长远价值),从而选择最佳的策略。

https://towardsdatascience.com/reinforcement-learning-explained-visually-part-5-deep-q-networks-step-by-step-5a5317197f4b/