先说value based 类,这类方法缺点除了不能直接得到动作值输出,难以扩展到连续动作空间上之外,还存在高偏差 (High bias) 的问题,根据估算得到的 value function 与实际的值函数之间的误差是很难消除的。
核心就是使用一个模型来拟合 $R(a, s)$,也就是在 state 下某个 action 的价值(长远价值),从而选择最佳的策略。
先说value based 类,这类方法缺点除了不能直接得到动作值输出,难以扩展到连续动作空间上之外,还存在高偏差 (High bias) 的问题,根据估算得到的 value function 与实际的值函数之间的误差是很难消除的。
核心就是使用一个模型来拟合 $R(a, s)$,也就是在 state 下某个 action 的价值(长远价值),从而选择最佳的策略。