DQN • Jeefy's Blog

1 min read 18 words Updated May 15, 2026 Created Jun 17, 2026

先说value based 类，这类方法缺点除了不能直接得到动作值输出，难以扩展到连续动作空间上之外，还存在高偏差 (High bias) 的问题，根据估算得到的 value function 与实际的值函数之间的误差是很难消除的。

核心就是使用一个模型来拟合 $R(a, s)$，也就是在 state 下某个 action 的价值（长远价值），从而选择最佳的策略。