方圆
Ctrl
k
强化学习
让机器学会“决策”的艺术。
什么是强化学习?
马尔可夫决策过程(MDP)
Q-Learning 与 DQN
策略梯度与 PPO
大模型 × 强化学习(RLHF)
上一页
深度学习基础
下一页
策略梯度(Policy Gradient)完整数学推导
最后更新于
1个月前