⌘Ctrlk

⌘Ctrlk

欢迎来到 FangYuan RL：从零构建智能体 🧠
数学基础
Python 基础
PyTorch 基础
深度学习基础
强化学习
- 📘策略梯度（Policy Gradient）完整数学推导

由 GitBook 提供支持

在本页

强化学习

让机器学会“决策”的艺术。

什么是强化学习？
马尔可夫决策过程（MDP）
Q-Learning 与 DQN
策略梯度与 PPO
大模型 × 强化学习（RLHF）

上一页深度学习基础下一页策略梯度（Policy Gradient）完整数学推导

最后更新于3个月前