Denial

❯

RL

Jun 27, 20261 min read

Reinforcement Learning (RL)

REINFORCE (Policy Gradient) Formula

$\nabla_{θ} J (θ) = E_{τ \sim π_{θ}} [\sum_{t = 0}^{T} \nabla_{θ} lo g π_{θ} (a_{t} ∣ s_{t}) G_{t}]$

Graph View

Reinforcement Learning (RL)
REINFORCE (Policy Gradient) Formula

Backlinks

Policy Gradient Theorem
I Trained an LLM to Think Deeper (Here's How)
[Full Workshop] Reinforcement Learning, Kernels, Reasoning, Quantization & Agents — Daniel Han
INDEX
Base

Created with Quartz v5.0.0 © 2026

GitHub
Discord Community