Covariance

Nuage de points associé à une loi normale multidimensionnelle avec un écart type de 3 dans la direction droite-haut et un écart type de 1 dans la direction orthogonale. Puisque les composantes en x et y « covarient », les variances respectives de ces variables ne permettent pas de décrire complètement la distribution. Une matrice de covariance 2×2 est nécessaire ; les flèches indiquent les directions des vecteurs propres de la matrice et leurs longueurs correspondent aux racines carrées de ses valeurs propres.

En théorie des probabilités et en statistique, la covariance entre deux variables aléatoires est un nombre permettant de quantifier leurs écarts conjoints par rapport à leurs espérances respectives. Elle s’utilise également pour deux séries de données numériques (écarts par rapport aux moyennes). La covariance de deux variables aléatoires indépendantes est nulle, bien que la réciproque ne soit pas toujours vraie.

La covariance est une extension de la notion de variance. La corrélation est une forme normalisée de la covariance (la dimension de la covariance entre deux variables est le produit de leurs dimensions, alors que la corrélation est une grandeur adimensionnelle).

Ce concept se généralise naturellement à plusieurs variables (vecteur aléatoire) par la matrice de covariance (ou matrice de variance-covariance) qui, pour un ensemble de p variables aléatoires réelles X₁... X_p est la matrice carrée dont l'élément de la ligne i et de la colonne j est la covariance des variables X_i et X_j. Cette matrice permet de quantifier la variation de chaque variable par rapport à chacune des autres. La forme normalisée de la matrice de covariance est la matrice de corrélation.

À titre d'exemple, la dispersion d'un ensemble de points aléatoires dans un espace à deux dimensions ne peut pas être totalement caractérisée par un seul nombre, ni par les seules variances dans les directions x et y ; une matrice 2 × 2 permet d’appréhender pleinement la nature bidimensionnelle des variations.

La matrice de covariance étant une matrice semi-définie positive, elle peut être diagonalisée et l’étude des valeurs propres et vecteurs propres permet de caractériser la distribution à l’aide d’une base orthogonale : cette approche est l'objet de l'analyse en composantes principales qui peut être considérée comme une sorte de compression de l’information.

Définition

La covariance de deux variables aléatoires réelles X et Y ayant chacune une variance (finie^[1]), notée Cov(X, Y) ou parfois $σ XY$ , est la valeur :

Définition — $\operatorname {Cov} (X,Y)\equiv \operatorname {E} [(X-\operatorname {E} [X])\,(Y-\operatorname {E} [Y])]$

où $\operatorname {E} [~]\$ désigne l'espérance mathématique. La variance de X est donc Var(X) = Cov(X, X). Intuitivement, la covariance caractérise les variations simultanées de deux variables aléatoires : elle sera positive lorsque les écarts entre les variables et leurs moyennes ont tendance à être de même signe, négative dans le cas contraire.

Conformément à l'expression de sa définition, la dimension de la covariance est le produit des dimensions des variables. En revanche, la corrélation, qui s’exprime à l’aide de la variance et de la covariance, prend ses valeurs dans [-1, 1] et reste adimensionnelle. Deux variables aléatoires dont la covariance est nulle sont dites non corrélées : leur corrélation est également nulle.

Pour deux variables aléatoires discrètes X et Y prenant respectivement leurs valeurs dans deux ensembles finis $\ \{x_{i}\,|\,1\leq i\leq n\},$ et $\ \{y_{j}\,|\,1\leq j\leq m\},$ on a pour leur covariance

\operatorname {Cov} (X,Y)=\sum _{i=1}^{n}\sum _{j=1}^{m}\,x_{i}y_{j}\operatorname {P} (X=x_{i}\ {\textrm {et}}\ Y=y_{j})-\operatorname {E} [X]\operatorname {E} [Y].

et pour les variances :

\sigma _{X}^{2}=\sum _{i=1}^{n}x_{i}^{2}\operatorname {P} (X=x_{i})-\operatorname {E} [X]^{2}\quad {\textrm {et}}\quad \sigma _{Y}^{2}=\sum _{j=1}^{m}y_{j}^{2}\operatorname {P} (Y=y_{j})-\operatorname {E} [Y]^{2}.

Définition de la matrice de covariance

La matrice de covariance d'un vecteur de p variables aléatoires ${\vec {X}}={\begin{pmatrix}X_{1}\\\vdots \\X_{p}\end{pmatrix}}$ dont chacune possède une variance, est la matrice carrée dont le terme générique est donné par

a_{i,j}={\textrm {Cov}}\left(X_{i},X_{j}\right)

La matrice de covariance, notée parfois ${\boldsymbol {\Sigma }}$ , est définie par

Définition — $\operatorname {Var} ({\vec {X}})\equiv \operatorname {E} [({\vec {X}}-\operatorname {E} ({\vec {X}}))({\vec {X}}-\operatorname {E} ({\vec {X}}))^{T}]$

En développant les termes :

\operatorname {Var} ({\vec {X}})={\begin{pmatrix}\operatorname {Var} (X_{1})&\operatorname {Cov} (X_{1},X_{2})&\cdots &\operatorname {Cov} (X_{1},X_{p})\\\operatorname {Cov} (X_{2},X_{1})&\ddots &\cdots &\vdots \\\vdots &\vdots &\ddots &\vdots \\\operatorname {Cov} (X_{p},X_{1})&\cdots &\cdots &\operatorname {Var} (X_{p})\end{pmatrix}}={\begin{pmatrix}\sigma _{x_{1}}^{2}&\sigma _{x_{1}x_{2}}&\cdots &\sigma _{x_{1}x_{p}}\\\sigma _{x_{2}x_{1}}&\ddots &\cdots &\vdots \\\vdots &\vdots &\ddots &\vdots \\\sigma _{x_{p}x_{1}}&\cdots &\cdots &\sigma _{x_{p}}^{2}\end{pmatrix}}

Propriétés

Une généralisation du théorème de König-Huygens pour la variance implique :

Propriété — $\operatorname {Cov} (X,Y)=\operatorname {E} (XY)-\operatorname {E} (X)\operatorname {E} (Y)$

Corollaire — Si X et Y sont indépendantes alors $\operatorname {Cov} (X,Y)=0$ .

La réciproque n'est en général pas vraie.

Contre-exemple

Il suffit de trouver deux variables X et Y de covariance nulle et qui ne sont pas indépendantes. Soit z une variable discrète qui peut prendre les valeurs 1 ou -1 de manière équiprobable (suivant une loi de Rademacher).

Soit X une variable aléatoire quelconque indépendante de z. Alors X et Y = z X ne sont clairement pas indépendantes. Cependant

$\operatorname {Cov} (X,Y)=\operatorname {E} (XY)-\operatorname {E} (X)\operatorname {E} (Y)=\operatorname {E} (z)\operatorname {Var} (X)=0.$

Propriétés —

$\operatorname {Cov} (X,X)=\operatorname {Var} (X)$
$\operatorname {Cov} (X,Y)=\operatorname {Cov} (Y,X)$
$\operatorname {Cov} (cX,Y)=c\operatorname {Cov} (X,Y)$ où c est une constante
$\operatorname {Cov} (X+c,Y)=\operatorname {Cov} (X,Y)$ où c est une constante
$\operatorname {Cov} (X+Y,Z)=\operatorname {Cov} (X,Z)+\operatorname {Cov} (Y,Z)$ où X, Y et Z sont trois variables

Bilinéarité de la covariance :

Propriété — $\operatorname {Cov} \left(\sum _{i}{X_{i}}\ ,\sum _{j}{Y_{j}}\right)=\sum _{i}{\sum _{j}{\operatorname {Cov} \left(X_{i},Y_{j}\right)}}$

Ceci traduit le fait que la covariance est une forme bilinéaire symétrique positive, et que la forme quadratique associée est la variance.

Corollaire — $\operatorname {Var} (aX+bY)=a^{2}\operatorname {Var} (X)+b^{2}\operatorname {Var} (Y)+2ab\operatorname {Cov} (X,Y)$

Cette formule est l'analogue de

(x+y)^{2}=x^{2}+y^{2}+2xy

. En fait, la plupart des propriétés de la covariance sont analogues à celles du produit de deux réels ou du produit scalaire de deux vecteurs.

Propriété — $\operatorname {Var} \left(\sum _{i=1}^{n}{X_{i}}\right)=\sum _{i=1}^{n}\operatorname {Var} (X_{i})+2\sum _{1\leq i<j\leq n}\operatorname {Cov} (X_{i},X_{j})$

Cette formule est classique pour une forme quadratique associée à une forme bilinéaire symétrique.

Propriétés de la matrice de covariance

La matrice de covariance est symétrique ; ses éléments diagonaux sont les variances et les éléments extra-diagonaux sont les covariances des couples de variables.
La matrice de covariance est semi-définie positive (ses valeurs propres sont positives ou nulles). Elle est définie positive (valeurs propres strictement positives) s'il n'existe aucune relation affine presque sûre entre les composantes du vecteur aléatoire.
Soit une application linéaire $F$ de $M_{m,n}(R)$ de matrice $M$

Soit

{\vec {X}}={\begin{pmatrix}X_{1}\\\vdots \\X_{n}\end{pmatrix}}

un vecteur aléatoire de matrice de covariance

C

M_{n}(R)

Alors le vecteur aléatoire

F(X)

a pour matrice de covariance

M\,C\,M^{T}.

L'inverse de la matrice de covariance est parfois désignée « matrice de précision ».

Estimation

En partant d’un échantillon de réalisations indépendantes d’un vecteur aléatoire, un estimateur non-biaisé de la matrice de covariance est donné par

\operatorname {\widehat {Var}} ({\vec {X}})={1 \over {n-1}}\sum _{i=1}^{n}({\vec {X}}_{i}-{\overline {\vec {X}}})({\vec {X}}_{i}-{\overline {\vec {X}}})^{T}

où

{\overline {\vec {X}}}={1 \over {n}}\sum _{i=1}^{n}{\vec {X}}_{i}

est le vecteur des moyennes empiriques.

L’estimateur de la covariance de deux variables X et Y n’est qu’un cas particulier :

\operatorname {\widehat {Cov}} (X,Y)={1 \over {n-1}}\sum _{i=1}^{n}(X_{i}-{\overline {X}})(Y_{i}-{\overline {Y}}).

Lorsque X suit une loi normale multidimensionnelle, l'estimateur du maximum de vraisemblance vaut en revanche :

\operatorname {\widehat {Var}} ({\vec {X}})={1 \over n}\sum _{i=1}^{n}({\vec {X}}_{i}-{\overline {\vec {X}}})({\vec {X}}_{i}-{\overline {\vec {X}}})^{T}.

Dans le cas où les données sont générées par une loi normale multidimensionnelle, l'estimateur du maximum de vraisemblance suit une loi de Wishart.

Le test de sphéricité de Bartlett permet de juger si les coefficients extra-diagonaux de la matrice sont globalement non nuls.

Processus stochastiques

Pour les processus stochastiques qui traitent de l’évolution d’une variable aléatoire, la covariance fait place aux concepts d’autocovariance et d’autocorrélation, puis d’estimation de la densité spectrale pour les processus stationnaires.

Exemples

Dans un forum Internet, quelqu'un affirme que l'activité du forum est plus intense les jours de pleine lune. On peut ne pas disposer du calendrier des pleines lunes, mais si cette affirmation est exacte et si l'on nomme N(t) le nombre de contributions au jour t, la covariance entre N(t) et N(t+29) cumulée sur toutes les valeurs de t, sera probablement supérieure aux covariances entre N(t) et N(t+x) pour les valeurs de x différentes de 29 (période synodique de la lune).
Un processus stochastique X_t sur un espace métrique S est dit de covariance isotrope si sa covariance entre deux variables dépend uniquement de la distance entre les indices :

\exists f:\mathbb {R} ^{+}\mapsto \mathbb {R} ,\forall t,s\in S,\operatorname {Cov} \left(X_{s},X_{t}\right)=f\left(\left\|s-t\right\|\right)

Si X est un processus centré isotrope sur

ℝ d

, l’autocorrélation isotrope vérifie

ρ (‖ h ‖) \geq -1 ⁄ d

Utilisation en statistique

La matrice de covariance est un outil essentiel pour l'analyse multivariée :

l'analyse en composantes principales qui exploite la diagonalisation de cette matrice ;
l'analyse discriminante qui se fonde sur l’examen des coefficients de cette matrice.

Autres applications

La connaissance des covariances est le plus souvent indispensable dans les fonctions d'estimation, de filtrage et de lissage. En photographie, elles permettent d'arriver à corriger de façon spectaculaire les flous de mise au point ainsi que les flous de mouvement, ce qui est extrêmement important pour les clichés astronomiques. On les utilise également en automatique. En sociolinguistique, la covariance désigne la correspondance entre l’appartenance à une certaine classe sociale et un certain parler inhérent à cette condition sociale. Les matrices de covariances sont utilisées pour le krigeage et les méthodes d'analyse par décomposition orthogonale aux valeurs propres. Enfin, on l'utilise encore en finance, pour juger si deux placements ont tendance à évoluer dans le même sens, dans des sens opposés, ou si leurs valeurs ne sont pas liées.

Voir aussi

Notes et références

↑ Les variables sont supposées appartenir à l'espace vectoriel $L^{2}(\Omega ,{\mathcal {B}},\operatorname {P} )$ des variables aléatoires de carré intégrable.