Loi normale multidimensionnelle

Distribution normale multidimensionnelle



Paramètres	$\mu =[\mu _{1},\dots ,\mu _{N}]^{\top }$ moyenne (vecteur réel) $\Sigma$ matrice de variance-covariance (matrice définie positive réelle $N\times N$ )
Support	$x\in \mathbb {R} ^{N}$
Densité de probabilité	${\frac {1}{(2\pi )^{N/2}\left\|\Sigma \right\|^{1/2}}}\;\;e^{-{\frac {1}{2}}(x-\mu )^{\top }\Sigma ^{-1}(x-\mu )}$
Espérance	$\mu$
Médiane	$\mu$
Mode	$\mu$
Variance	$\Sigma$
Asymétrie	0
Entropie	$\ln \left({\sqrt {(2\pi {\rm {e}})^{N}\left\|\Sigma \right\|}}\right)\!$
Fonction génératrice des moments	$M_{X}(t)=\exp \left(\mu ^{\top }t+{\frac {1}{2}}t^{\top }\Sigma t\right)$
Fonction caractéristique	$\phi _{X}(t;\mu ,\Sigma )=\exp \left({\rm {i}}t^{\top }\mu -{\frac {1}{2}}t^{\top }\Sigma t\right)$

En théorie des probabilités, on appelle loi normale multidimensionnelle, ou normale multivariée ou loi multinormale ou loi de Gauss à plusieurs variables, la loi de probabilité qui est la généralisation multidimensionnelle de la loi normale.

Idée générale

Différentes densités de lois normales en une dimension.

Densité d'une loi gaussienne en 2D.

Une loi normale classique est une loi dite « en cloche » en une dimension. Comme le montre la figure, la densité en forme de cloche peut être translatée n'importe où ; l'abscisse où se trouve le pic est la moyenne, aussi appelée centre, ou espérance. Si on fait plusieurs tirages selon une loi normale, on obtient plusieurs nombres réels et la moyenne des valeurs obtenues se situent près du centre. La largeur de la cloche se mesure par la variance. Plus la variance est petite, plus la cloche est resserrée, plus les valeurs tirées auront tendance à être proche de la moyenne. À l'inverse, plus la variance est grande, plus la cloche est large et les valeurs seront plus éparpillées autour de la moyenne. Pour le cas normal, la seule valeur de la variance suffit à caractériser la « largeur » de la cloche.

Une loi normale multidimensionnelle reprend le même principe que la loi normale classique mais en plusieurs dimensions, par exemple en deux dimensions. Si on fait des tirages selon une loi normale multidimensionnelle, on obtient des points. On parle de vecteur aléatoire. La deuxième figure montre la densité en forme de cloche en 2D. De la même manière, le point dans le plan où se trouve le pic est la moyenne, centre ou espérance. L'espérance est un point : la figure montre une loi gaussienne de moyenne (50, 50).

De la même façon, la cloche peut être plus ou moins large. Comme il y a plusieurs dimensions, la cloche peut être large pour une dimension et étroite pour une autre. Deux coordonnées peuvent aussi être corrélées : par exemple, il peut arriver que si on tire un point et que sa première coordonnée est positive, il y a plus de chances que la deuxième coordonnée soit aussi positive. Ainsi, comme on est dans le cas de vecteurs gaussiens, on modélise la forme de la cloche avec la matrice de variance-covariance.

Définition

Alors que la loi normale classique est paramétrée par un scalaire $μ$ correspondant à sa moyenne et un second scalaire $σ 2$ correspondant à sa variance, la loi multinormale est paramétrée par un vecteur ${\boldsymbol {\mu }}\in \mathbb {R} ^{N}$ représentant son centre et une matrice semi-définie positive ${\boldsymbol {\Sigma }}\in {\mathcal {M}}_{N}(\mathbb {R} )$ qui est sa matrice de variance-covariance. On la définit par sa fonction caractéristique, pour un vecteur ${\boldsymbol {x}}\in \mathbb {R} ^{N}$ ,

\phi _{{\boldsymbol {\mu }},{\boldsymbol {\Sigma }}}({\boldsymbol {x}})=\exp \left({\rm {i}}{\boldsymbol {x}}^{\top }{\boldsymbol {\mu }}-{\frac {1}{2}}{\boldsymbol {x}}^{\top }{\boldsymbol {\Sigma }}{\boldsymbol {x}}\right)

Dans le cas non dégénéré où $Σ$ est définie positive, donc inversible, la loi normale multidimensionnelle admet la densité de probabilité suivante :

f_{{\boldsymbol {\mu }},{\boldsymbol {\Sigma }}}\left({\boldsymbol {x}}\right)={\frac {1}{(2\pi )^{N/2}\det \!\left({\boldsymbol {\Sigma }}\right)^{1/2}}}\;\exp \left[-{\frac {1}{2}}\left({\boldsymbol {x}}-{\boldsymbol {\mu }}\right)^{\top }{\boldsymbol {\Sigma }}^{-1}\left({\boldsymbol {x}}-{\boldsymbol {\mu }}\right)\right]

Cette loi est habituellement notée ${\mathcal {N}}({\boldsymbol {\mu }},\,{\boldsymbol {\Sigma }})$ par analogie avec la loi normale unidimensionnelle.

Loi non dégénérée

Cette section s'intéresse à la construction de la loi normale multidimensionnelle dans le cas non dégénéré où la matrice de variance-covariance $Σ$ est définie positive.

Rappel sur la loi normale unidimensionnelle

Le théorème central limite fait apparaître une variable $U$ de Gauss centrée réduite (moyenne nulle, variance unité) :

\mathbb {E} [U]=0\qquad \mathbb {E} [U^{2}]=1

p_{U}(u)={\frac {1}{\sqrt {2\pi }}}\;\;\mathrm {e} ^{-{\frac {1}{2}}u^{2}}\,

On passe à la variable de Gauss générale par le changement de variable

X=\sigma U+\mu \,

qui conduit à

\mathbb {E} [X]=\mu \qquad \mathbb {E} [(X-\mu )^{2}]=\sigma ^{2}

p_{X}(x)={\frac {1}{\sigma {\sqrt {2\pi }}}}\;\;\mathrm {e} ^{-{(x-\mu )^{2}} \over {2\sigma ^{2}}}

La densité de cette loi est caractérisée par une exponentielle comportant un exposant du second degré.

Loi unitaire à plusieurs variables

Étant données N variables aléatoires indépendantes de même loi de Gauss centrée réduite, leur densité de probabilité jointe s'écrit :

p_{U_{1}...U_{N}}(u_{1},...,u_{N})={\frac {1}{{(2\pi )}^{N/2}}}\;\;\mathrm {e} ^{-{1 \over 2}\sum _{j=1}^{N}u_{j}^{2}}

C'est la loi qui est à la base de la loi du χ².

Elle peut être synthétisée dans des formules matricielles. On définit d'abord le vecteur aléatoire $U$ qui a pour composantes les N variables et le vecteur d'état $u$ qui a pour composantes leurs valeurs numériques.

On peut associer au vecteur d'état le vecteur moyenne qui a pour composantes les moyennes des composantes, c'est-à-dire, dans ce cas, le vecteur nul :

\mathbb {E} [{\boldsymbol {U}}]={\boldsymbol {0}}\,

La matrice de covariance possède des éléments diagonaux (les variances) qui sont égaux à 1 tandis que les éléments non diagonaux (les covariances au sens strict) sont nuls : c'est la matrice unité. Elle peut s'écrire en utilisant la transposition :

\mathbb {E} [{\boldsymbol {U}}{\boldsymbol {U}}^{\top }]={\boldsymbol {I}}\,

Enfin, la densité de probabilité s'écrit :

p_{\boldsymbol {U}}({\boldsymbol {u}})={\frac {1}{{(2\pi )}^{N/2}}}\;\;\mathrm {e} ^{-{1 \over 2}{\boldsymbol {u}}^{\top }{\boldsymbol {u}}}

Loi générale à plusieurs variables

Elle s'obtient à partir d'un changement de variable affine

{\boldsymbol {X}}={\boldsymbol {a}}{\boldsymbol {U}}+{\boldsymbol {\mu }}

Le problème sera limité au cas d'une matrice $a$ carrée (même nombre de variables en sortie) et régulière. L'opérateur espérance vectoriel étant linéaire, on obtient le vecteur moyen

\mathbb {E} [{\boldsymbol {X}}]={\boldsymbol {a}}\mathbb {E} [{\boldsymbol {U}}]+{\boldsymbol {\mu }}={\boldsymbol {\mu }}\,

et la matrice de covariance

\mathbb {E} [{\boldsymbol {(X-\mu )}}{\boldsymbol {(X-\mu )}}^{\top }]=\mathbb {E} [{\boldsymbol {a}}{\boldsymbol {U}}{\boldsymbol {U}}^{\top }{\boldsymbol {a}}^{\top }]={\boldsymbol {a}}{\boldsymbol {a}}^{\top }={\boldsymbol {\Sigma }}\,

La densité de probabilité s'écrit

p_{\boldsymbol {X}}({\boldsymbol {x}})={\frac {1}{{(2\pi )}^{N/2}\left|{\boldsymbol {\Sigma }}\right|^{1/2}}}\;\mathrm {e} ^{-{1 \over 2}{\boldsymbol {(x-\mu )}}^{\top }{\boldsymbol {\Sigma }}^{-1}{\boldsymbol {(x-\mu )}}}

Remarques diverses

Un nouveau changement de variables linéaire appliqué à $X$ aboutit à une densité de probabilité qui a la même forme mathématique :

{\boldsymbol {Y}}={\boldsymbol {b}}{\boldsymbol {X}}+{\boldsymbol {\nu }}={\boldsymbol {b}}{\boldsymbol {a}}{\boldsymbol {U}}+{\boldsymbol {b}}{\boldsymbol {\mu }}+{\boldsymbol {\nu }}

Les formules essentielles, obtenues commodément à partir du calcul matriciel, se traduisent en termes scalaires :

X_{k}=\sum _{j=1}^{N}{a_{kj}U_{j}}\,(k=1,N)\,

p_{X_{1}...X_{N}}(x_{1},...x_{N})={\frac {1}{{(2\pi )}^{N/2}\det \!\left({\boldsymbol {\Sigma }}\right)^{1/2}}}\;\;\mathrm {e} ^{-{1 \over 2}\sum _{j=1}^{N}\sum _{k=1}^{N}t_{jk}(x_{j}-\mu _{j})(x_{k}-\mu _{k})}

les $t jk$ étant les coefficients de l'inverse de la matrice de covariance.

L'exposant dans la formule qui précède est du second degré par rapport à toutes les variables. On vérifie qu'une intégration par rapport à l'une d'entre elles donne un résultat analogue. Les (N-1) intégrations successives aboutissent à une loi de probabilité marginale munie d'un exposant quadratique : chaque variable est gaussienne, ce qui n'était pas évident a priori.

En combinant les remarques précédentes, on aboutit au résultat selon lequel toute combinaison linéaire des composantes d'un vecteur gaussien est une variable gaussienne.

Dans cette loi de probabilité jointe, à tout couple de variables décorrélées correspond une matrice de covariance diagonale, ce qui assure leur indépendance. En effet, le couple est lui-même gaussien, et sa densité jointe est le produit des densités de ses deux composantes.
Le terme présent dans l'exponentielle $\left({\boldsymbol {x}}-{\boldsymbol {\mu }}\right)^{\top }{\boldsymbol {\Sigma }}^{-1}\left({\boldsymbol {x}}-{\boldsymbol {\mu }}\right)$ est le carré de la distance de Mahalanobis.

Distributions conditionnelles

Si $X$ , $\mu$ et $\Sigma$ sont partitionnées comme décrit ci-dessous

\mu ={\begin{bmatrix}\mu _{1}\\\mu _{2}\end{bmatrix}}\quad

avec les dimensions

{\begin{bmatrix}q\times 1\\p\times 1\end{bmatrix}}

où

N=p+q

\Sigma ={\begin{bmatrix}\Sigma _{11}&\Sigma _{12}\\\Sigma _{21}&\Sigma _{22}\end{bmatrix}}\quad

avec les dimensions

{\begin{bmatrix}q\times q&q\times p\\p\times q&p\times p\end{bmatrix}}

$X={\begin{bmatrix}X_{1}\\X_{2}\end{bmatrix}}\sim {\mathcal {N}}_{N}\left(\mu ,\Sigma \right)$

alors la distribution de $X_{1}$ conditionnellement à $X_{2}=a$ est une loi normale multidimensionnelle $(X_{1}|X_{2}=a)\sim {\mathcal {N}}_{q}(\mu _{1|a},\Sigma _{11.2})$ où

\mu _{1|a}=\mu _{1}+\Sigma _{12}\Sigma _{22}^{-1}\left(a-\mu _{2}\right)

et la matrice de variance-covariance s'écrit

\Sigma _{11.2}=\Sigma _{11}-\Sigma _{12}\Sigma _{22}^{-1}\Sigma _{21}.

Cette matrice est le complément de Schur de ${\mathbf {\Sigma } _{22}}$ dans ${\mathbf {\Sigma } }$ .

On remarquera que savoir que $X_{2}$ vaut $a$ change la variance de $X_{1}$ et que, de manière tout aussi surprenante, la moyenne est aussi modifiée. Cela est à comparer avec la situation dans laquelle on ne connaît pas $a$ , auquel cas $X_{1}$ a pour distribution ${\mathcal {N}}_{q}\left(\mu _{1},\Sigma _{11}\right)$ . Cela résulte de la condition $X\sim {\mathcal {N}}_{N}\left(\mu ,\Sigma \right)$ qui n'a rien d'anodine !

La matrice $\Sigma _{12}\Sigma _{22}^{-1}$ est appelée matrice des coefficients de régression.

Propriétés

Les iso-contours d'une loi normale multidimensionnelle non singulière sont des ellipsoïdes centrés sur la moyenne $μ$ . Les directions des axes principaux de ces ellipsoïdes sont les vecteurs propres de $Σ$ . Les carrés des longueurs relatives de ces axes sont donnés par les valeurs propres associées à ces vecteurs propres.

L'entropie différentielle de la loi normale multidimensionnelle est donnée par^[1]

H\left(f\right)=-\int _{\mathbb {R} ^{N}}f(x)\ln f(x)\,\mathrm {d} x

={\frac {1}{2}}\left(N+N\ln \left(2\pi \right)+\ln \det \!\left(\Sigma \right)\right)\!

={\frac {1}{2}}\ln\{(2\pi \mathrm {e} )^{N}\det \!\left(\Sigma \right)\}

La divergence de Kullback-Leibler prend une forme particulière dans le cas de deux lois normales multidimensionnelles ${\mathcal {N}}_{0}(\mu _{0},\Sigma _{0})$ et ${\mathcal {N}}_{1}(\mu _{1},\Sigma _{1})$

D_{\text{KL}}(N_{0}\|N_{1})={1 \over 2}\left(\ln \left({\frac {\det \!\left(\Sigma _{1}\right)}{\det \!\left(\Sigma _{0}\right)}}\right)+\mathrm {tr} \left(\Sigma _{1}^{-1}\Sigma _{0}\right)+\left(\mu _{1}-\mu _{0}\right)^{\top }\Sigma _{1}^{-1}(\mu _{1}-\mu _{0})-N\right).

La notion de fonction cumulative $Φ$ (ou fonction de répartition) de la loi normale en dimension 1 peut se généraliser à la loi normale multidimensionnelle^[2]. Pour ce faire, le principe clé est la distance de Mahalanobis : la fonction cumulative $\Phi _{n}(r)$ est la probabilité que la variable aléatoire normale tombe dans l'ellipse déterminée par sa distance de Mahalanobis $r$ au Gaussien. Des formules analytiques existent pour calculer les valeurs de la fonction cumulative^[2].

Simulation

Pour simuler une loi multinormale ${\boldsymbol {X}}\sim {\mathcal {N}}(\mu ,\,\Sigma )$ dont les paramètres sont connus ou estimés, soit $m\sim \mu$ et $C\sim \Sigma$ , on cherche à générer un échantillon artificiel de vecteurs indépendants de ${\boldsymbol {X}}$ .

Si $C$ n’est pas diagonale, il n’est pas envisageable de produire successivement les n variables $X i$ , car cette méthode ne respecterait pas les covariances.

L'approche consiste plutôt à exprimer le vecteur $X$ comme une combinaison linéaire de variables scalaires $Y_{i}\sim {\mathcal {N}}(0,1)$ indépendantes entre elles de la forme

{\boldsymbol {X}}=m+B{\boldsymbol {Y}}

où $B$ est une matrice carrée satisfaisant la contrainte

C=BB^{T}.

Une propriété de la covariance montre en effet que cette contrainte assure le respect de la covariance de $X$ .

Après avoir déterminé $B$ , il suffit de générer des simulations des $Y i$ pour obtenir (à l’aide de la relation ci-dessus) des versions indépendantes du vecteur $X$ .

Il y a plusieurs possibilités pour le choix de $B$ :

Si la loi multinormale est non dégénérée, la factorisation de Cholesky de $C$ (alors inversible) permet de déterminer une matrice triangulaire inférieure $B$ satisfaisant précisément la contrainte précédente.
Dans le cas général, $C$ est semi-définie positive et le procédé de diagonalisation permet de caractériser

C=ODO^{T}

où

O

est une matrice orthogonale dont les colonnes sont des vecteurs propres de

C

, et

D

est une matrice diagonale constituée des valeurs propres de

C

, toutes positives ou nulles. Il suffit alors de choisir

B=OD^{1/2}

Remarques :

Bien que ces approches soient équivalentes en théorie, la seconde est numériquement préférable car elle présente une meilleure stabilité lorsque la condition de la matrice de covariance est « mauvaise ».
Le plus souvent, un générateur de nombres pseudo-aléatoires produit en boucle les valeurs d’une série limitée (on retrouve les mêmes résultats après avoir atteint la fin de la série). Attention à cet aspect lorsqu’il s’agit de générer un grand nombre de simulations d’un vecteur multinormal de taille n élevée : l’indépendance ne sera plus assurée après épuisement de la série.

Applications

La loi normale multidimensionnelle est notamment utilisée dans le traitement d'images médicales. Ainsi elle est par exemple fréquemment utilisée dans l'imagerie du tenseur de diffusion. Cette imagerie modélise en effet la distribution des principales directions de diffusion de l'eau par une loi normale multidimensionnelle de moyenne nulle. Ainsi le tenseur en chaque point de l'image n'est autre que la matrice de covariance de la loi normale multidimensionnelle.

Une seconde application de la loi normale multidimensionnelle est la détermination, à partir des intensités dans des IRM du cerveau d'un patient, des différentes classes de tissus (matière grise, matière blanche, liquide céphalo-rachidien) qui le composent. Cette technique est basée sur l'utilisation d'un algorithme espérance-maximisation dans lequel chacune des classes est modélisée par une loi normale multidimensionnelle dont la dimension est égale aux nombre de modalités utilisées pour la classification.

Notes et références

↑ (en) DV Gokhale, NA Ahmed, BC Res, NJ Piscataway, « Entropy Expressions and Their Estimators for Multivariate Distributions », IEEE Transactions on Information Theory, vol. 35, n^o 3,‎ mai 1989, p. 688–692
1 2 Voir par exemple (en) Michael Bensimhoun, « N-Dimensional Cumulative Function, And Other Useful Facts About Gaussians and Normal Densities » [PDF], 2006