让机器学会“决策”的艺术。
什么是强化学习?arrow-up-right
马尔可夫决策过程(MDP)arrow-up-right
Q-Learning 与 DQNarrow-up-right
策略梯度与 PPOarrow-up-right
大模型 × 强化学习(RLHF)arrow-up-right
最后更新于3个月前