Gaussian Policy

Definition

A Gaussian policy is a stochastic policy for continuous action spaces that models the action distribution as a multivariate Gaussian (normal) distribution:

$a \sim N (μ_{θ} (s), Σ_{θ} (s))$

where:

$μ_{θ} (s) \in R^{∣ A ∣}$ is the mean (mean action), parameterized by $θ$
$Σ_{θ} (s)$ is the covariance matrix (controls exploration magnitude)
$a \in R^{∣ A ∣}$ is the continuous action

Intuition

For continuous control (e.g., robot joint angles, continuous force), we need a policy that:

Learns a preferred action (the mean)
Maintains uncertainty/exploration around that mean
Adjusts both mean and variance based on state

Gaussian policy naturally provides this: it’s differentiable, supported on $R^{∣ A ∣}$ , and captures both exploitation (mean) and exploration (variance).

Mathematical Formulation

Probability Density

For a diagonal Gaussian (common simplification):

$π_{θ} (a ∣ s) = \prod_{i = 1}^{∣ A ∣} \frac{1}{2 π σ _{i}^{2}} exp (- \frac{( a _{i} - μ _{i} ( s ) ) ^{2}}{2 σ _{i}^{2}})$

Log-Policy (for gradient computation)

$lo g π_{θ} (a ∣ s) = - \sum_{i = 1}^{∣ A ∣} [\frac{( a _{i} - μ _{i} ( s ) ) ^{2}}{2 σ _{i}^{2}} + lo g σ_{i}] + const$

Gradient w.r.t. Mean

$\nabla_{θ} lo g π_{θ} (a ∣ s) = \frac{1}{σ ^{2}} (a - μ_{θ} (s)) \nabla_{θ} μ_{θ} (s)$

Interpretation: Update mean in direction of the action error, scaled by inverse variance.

Gradient w.r.t. Variance

$\frac{\partial}{\partial σ} lo g π_{θ} (a ∣ s) = \frac{( a - μ ( s ) ) ^{2}}{σ ^{3}} - \frac{1}{σ}$

This shows variance should increase when actions are far from mean, decrease when close.

Key Properties/Variants

Mean Parameterization

Common choices:

Linear: $μ_{θ} (s) = θ^{T} ϕ (s)$
- Simple, interpretable
- Good for linear relationships
Neural network: $μ_{θ} (s) = NN_{θ} (s)$
- Highly expressive
- Standard for deep RL

Variance Parameterization

Fixed variance: $σ$ is a hyperparameter, not learned
- Simpler, faster
- May require careful tuning
Learned scalar variance: One $σ$ per dimension
- Adapts exploration per action dimension
- Common in practice
State-dependent variance: $σ_{θ} (s)$ also learned
- Maximum flexibility
- Needs careful initialization
Log-variance: Often parameterize $lo g σ$ to ensure positivity

Diagonal vs Full Covariance

Diagonal (most common): $Σ = diag (σ_{1}^{2}, \dots, σ_{d}^{2})$
- Simpler gradient computation
- Assumes action dimensions are independent
Full covariance: Allows correlation between actions
- More expressive, more expensive
- Rarely needed

Connections

Related to: Normal distribution, Continuous control
Basis for: Policy Gradient Methods for continuous actions
Alternative to: Softmax Policy (which is for discrete actions)
Enables: Smooth, differentiable action sampling

Appears In

Policy Gradient Methods — Standard for continuous action spaces
REINFORCE — Continuous control variant
Actor-Critic — Continuous action actor
PPO — Continuous benchmark tasks
Deep Deterministic Policy Gradient — Alternative to Gaussian (deterministic policy)
Soft Actor-Critic (SAC) — Uses Gaussian policies with entropy regularization

Study Notes

Explorer

Gaussian Policy

Gaussian Policy

Definition

Intuition

Mathematical Formulation

Probability Density

Log-Policy (for gradient computation)

Gradient w.r.t. Mean

Gradient w.r.t. Variance

Key Properties/Variants

Mean Parameterization

Variance Parameterization

Diagonal vs Full Covariance

Connections

Appears In

Graph View

Table of Contents

Backlinks