Study Notes

❯

❯

Bellman Optimality Equation

Bellman Optimality Equation

Jun 06, 20261 min read

foundations
key-formula

Bellman Optimality Equation

See Bellman Optimality Equations for the full treatment.

For $v_{*}$

$v_{*} (s) = max_{a} \sum_{s^{'}, r} p (s^{'}, r ∣ s, a) [r + γ v_{*} (s^{'})]$

For $q_{*}$

$q_{*} (s, a) = \sum_{s^{'}, r} p (s^{'}, r ∣ s, a) [r + γ max_{a^{'}} q_{*} (s^{'}, a^{'})]$

Solved by: Value Iteration, Policy Iteration, Q-Learning (sample-based)

Appears In

RL-L01 - Intro, MDPs & Bandits, RL-L02 - Dynamic Programming

Graph View

Bellman Optimality Equation
Appears In

Backlinks

Bellman Equation
Dynamic Programming
Markov Decision Process
Value Iteration
RL-Book Ch3 - Finite MDPs
RL-Book Ch4 - Dynamic Programming

Created with Quartz v4.5.2 © 2026

GitHub
Discord Community