方圆
search
⌘Ctrlk
方圆
search
⌘Ctrlk
  • 欢迎来到 FangYuan RL:从零构建智能体 🧠
  • 数学基础
  • Python 基础
  • PyTorch 基础
  • 深度学习基础
  • 强化学习
    • 📘策略梯度(Policy Gradient)完整数学推导
gitbook由 GitBook 提供支持
block-quote在本页chevron-down

强化学习

让机器学会“决策”的艺术。

  • 什么是强化学习?arrow-up-right

  • 马尔可夫决策过程(MDP)arrow-up-right

  • Q-Learning 与 DQNarrow-up-right

  • 策略梯度与 PPOarrow-up-right

  • 大模型 × 强化学习(RLHF)arrow-up-right

上一页深度学习基础chevron-left下一页策略梯度(Policy Gradient)完整数学推导chevron-right

最后更新于3个月前