方圆
Ctrlk
方圆
Ctrlk
  • 欢迎来到 FangYuan RL:从零构建智能体 🧠
  • 数学基础
  • Python 基础
  • PyTorch 基础
  • 深度学习基础
  • 强化学习
    • 📘策略梯度(Policy Gradient)完整数学推导
由 GitBook 提供支持
在本页

强化学习

让机器学会“决策”的艺术。

  • 什么是强化学习?

  • 马尔可夫决策过程(MDP)

  • Q-Learning 与 DQN

  • 策略梯度与 PPO

  • 大模型 × 强化学习(RLHF)

上一页深度学习基础下一页策略梯度(Policy Gradient)完整数学推导

最后更新于1个月前