Cov(X, Y) : Calcul Avec E(X), E(Y), E(XY)

by fritz-hansen 42 views

Salut les matheux et les matheuses ! Aujourd'hui, on plonge dans le monde fascinant des probabilitĂ©s et des statistiques pour dĂ©cortiquer un concept clĂ© : la covariance. Si vous vous ĂȘtes dĂ©jĂ  retrouvĂ©s face Ă  des donnĂ©es et que vous vous ĂȘtes demandĂ© comment deux variables, disons X et Y, Ă©voluent ensemble, alors la covariance est votre meilleur pote. Dans cet article, on va se pencher sur un cas concret oĂč l'on nous donne les espĂ©rances : E(X)=4E(X) = 4, E(Y)=5E(Y) = 5, et l'espĂ©rance du produit E(XY)=25E(XY) = 25. Notre mission, si vous l'acceptez, est de dĂ©nicher la Covariance de X et Y, notĂ©e Cov(X,Y)Cov(X, Y). Accrochez-vous, ça va ĂȘtre une aventure mathĂ©matique riche en dĂ©couvertes !

Comprendre la Covariance : Bien plus qu'un simple chiffre

Alors, qu'est-ce que cette fameuse covariance, au juste ? Pensez-y comme Ă  un indicateur qui nous dit si deux variables ont tendance Ă  bouger dans la mĂȘme direction, ou dans des directions opposĂ©es. Si la covariance est positive, ça veut dire que quand X augmente, Y a tendance Ă  augmenter aussi (et vice-versa). C'est une relation positive, un peu comme quand on rĂ©vise ensemble avant un examen, plus on travaille, meilleurs sont nos rĂ©sultats. À l'inverse, si la covariance est nĂ©gative, ça signifie que quand X augmente, Y a tendance Ă  diminuer. C'est une relation nĂ©gative, comme quand on passe trop de temps sur les rĂ©seaux sociaux, plus on en consomme, moins on a de temps pour Ă©tudier. Et si la covariance est proche de zĂ©ro ? LĂ , ça suggĂšre qu'il n'y a pas de relation linĂ©aire Ă©vidente entre X et Y. Attention, ça ne veut pas dire qu'il n'y a aucune relation, juste qu'elle n'est pas linĂ©aire. Les relations non linĂ©aires, c'est un autre dĂ©bat, mais pour l'instant, concentrons-nous sur la linĂ©aritĂ©, qui est le domaine de prĂ©dilection de la covariance. La formule de base de la covariance, celle qui fait frĂ©mir les Ă©tudiants en premiĂšre annĂ©e, c'est Cov(X,Y)=E[(X−E(X))(Y−E(Y))]Cov(X, Y) = E[(X - E(X))(Y - E(Y))]. Cette formule nous dit en gros de regarder la moyenne des produits des Ă©carts de X et Y par rapport Ă  leurs espĂ©rances respectives. Ça nous donne une idĂ©e de la façon dont les valeurs observĂ©es s'Ă©cartent simultanĂ©ment de leurs moyennes.

Mais avouez, cette formule, elle est un peu intimidante. Heureusement, il existe une formule alternative, beaucoup plus pratique quand on connaĂźt les espĂ©rances, et c'est exactement notre cas aujourd'hui. Cette formule magique est : Cov(X,Y)=E(XY)−E(X)E(Y)Cov(X, Y) = E(XY) - E(X)E(Y). VoilĂ , ça, c'est notre sĂ©same pour rĂ©soudre notre problĂšme ! Elle transforme le calcul de la covariance en une simple soustraction aprĂšs avoir calculĂ© ou connu les trois termes : l'espĂ©rance du produit des variables (E(XY)E(XY)), l'espĂ©rance de la premiĂšre variable (E(X)E(X)), et l'espĂ©rance de la seconde variable (E(Y)E(Y)). C'est un peu comme si on avait le mode d'emploi simplifiĂ© d'un appareil complexe. Comprendre la signification de chaque terme est crucial. E(X)E(X) reprĂ©sente la valeur moyenne que X peut prendre sur le long terme. E(Y)E(Y) est la valeur moyenne de Y. Quant Ă  E(XY)E(XY), c'est la moyenne du produit des valeurs de X et Y. Si X et Y sont indĂ©pendantes, alors E(XY)=E(X)E(Y)E(XY) = E(X)E(Y), et dans ce cas, la covariance est nulle. Mais attention, la rĂ©ciproque n'est pas toujours vraie : une covariance nulle n'implique pas forcĂ©ment l'indĂ©pendance. C'est pour ça qu'on dit souvent que la covariance mesure la dĂ©pendance linĂ©aire.

La formule clé pour résoudre notre problÚme

Comme je l'ai mentionnĂ© juste avant, la formule que nous allons utiliser pour calculer notre Cov(X,Y)Cov(X, Y) est la suivante : Cov(X,Y)=E(XY)−E(X)E(Y)Cov(X, Y) = E(XY) - E(X)E(Y). Cette formule est un pilier dans l'Ă©tude des relations entre variables alĂ©atoires et elle dĂ©coule directement de la dĂ©finition de la covariance. Pour vous rafraĂźchir la mĂ©moire, rappelons que E(X)E(X) est l'espĂ©rance de la variable alĂ©atoire X, c'est-Ă -dire sa valeur moyenne pondĂ©rĂ©e par ses probabilitĂ©s. De mĂȘme, E(Y)E(Y) est l'espĂ©rance de Y. Le terme E(XY)E(XY) est l'espĂ©rance du produit des deux variables. L'astuce de cette formule est qu'elle nous permet de calculer la covariance sans avoir Ă  connaĂźtre la distribution jointe de X et Y, ce qui est souvent le cas en pratique. On peut avoir accĂšs aux moyennes et Ă  la moyenne du produit des observations, mais pas forcĂ©ment Ă  la loi complĂšte des variables. C'est super pratique, les gars ! Savoir manipuler cette formule, c'est dĂ©jĂ  une grosse Ă©tape. Pensez-y comme Ă  un outil universel dans votre boĂźte Ă  outils mathĂ©matiques. Elle est fondamentale pour des domaines comme la finance (pour mesurer le risque d'un portefeuille), l'ingĂ©nierie (pour analyser la fiabilitĂ© de systĂšmes), ou encore la mĂ©decine (pour Ă©tudier les liens entre diffĂ©rents facteurs de santĂ©). MaĂźtriser cette formule, c'est s'ouvrir les portes de nombreuses analyses statistiques avancĂ©es. Et le plus beau dans tout ça, c'est sa simplicitĂ© apparente : une espĂ©rance du produit moins le produit des espĂ©rances. C'est une relation d'une Ă©lĂ©gance remarquable qui simplifie grandement la vie de l'analyste ou de l'Ă©tudiant en probabilitĂ©s. Retenez bien cette formule, car elle sera votre alliĂ©e dans de nombreux exercices et problĂšmes concrets. Elle met en lumiĂšre la connexion entre la moyenne conjointe et les moyennes marginales des variables.

Application pratique : Calculons Cov(X, Y)

Maintenant que les bases sont posĂ©es et que notre formule est sous nos yeux, il est temps de passer Ă  l'action et de rĂ©soudre notre problĂšme spĂ©cifique. On nous donne les informations suivantes : E(X)=4E(X) = 4, E(Y)=5E(Y) = 5, et E(XY)=25E(XY) = 25. Notre objectif est de trouver la valeur de Cov(X,Y)Cov(X, Y). En utilisant notre formule prĂ©fĂ©rĂ©e, Cov(X,Y)=E(XY)−E(X)E(Y)Cov(X, Y) = E(XY) - E(X)E(Y), il suffit de substituer les valeurs que l'on connaĂźt. Premier point : E(XY)=25E(XY) = 25. Ensuite, on calcule le produit des espĂ©rances : E(X)imesE(Y)=4imes5=20E(X) imes E(Y) = 4 imes 5 = 20. Et voilĂ  ! Il ne nous reste plus qu'Ă  faire la soustraction : Cov(X,Y)=25−20Cov(X, Y) = 25 - 20. Le rĂ©sultat est donc Cov(X,Y)=5Cov(X, Y) = 5. Eh oui, c'est aussi simple que ça ! Vous avez rĂ©ussi Ă  calculer la covariance ! Ce rĂ©sultat de 5 nous dit que les variables X et Y ont tendance Ă  varier dans le mĂȘme sens. Quand X prend une valeur supĂ©rieure Ă  sa moyenne (4), Y a une tendance Ă  prendre une valeur supĂ©rieure Ă  sa moyenne (5). C'est une information prĂ©cieuse qui peut nous aider Ă  mieux comprendre le comportement conjoint de ces deux variables. Imaginez que X reprĂ©sente le nombre d'heures d'Ă©tude par semaine et Y la note moyenne obtenue Ă  un examen. Si E(X)=4E(X)=4 heures et E(Y)=5E(Y)=5 (sur une Ă©chelle de 10 par exemple), et que Cov(X,Y)=5Cov(X,Y)=5, cela suggĂšre qu'il y a une relation positive : plus vous Ă©tudiez (X augmente), plus votre note a tendance Ă  augmenter (Y augmente). Bien sĂ»r, ce n'est qu'une tendance, car la rĂ©alitĂ© est souvent plus complexe. D'autres facteurs peuvent influencer la note, mais la covariance nous donne une premiĂšre mesure quantitative de cette relation.

Interprétation du résultat : Que nous dit le chiffre 5 ?

Le rĂ©sultat de notre calcul est Cov(X,Y)=5Cov(X, Y) = 5. Qu'est-ce que cela signifie concrĂštement ? Comme on l'a vu, une covariance positive indique une tendance des variables Ă  Ă©voluer dans le mĂȘme sens. Dans notre cas, un Cov(X,Y)=5Cov(X, Y) = 5 est un indicateur d'une relation positive entre X et Y. Plus prĂ©cisĂ©ment, cela suggĂšre que lorsque X prend des valeurs supĂ©rieures Ă  son espĂ©rance (E(X)=4E(X)=4), Y a tendance Ă  prendre des valeurs supĂ©rieures Ă  son espĂ©rance (E(Y)=5E(Y)=5), et inversement, lorsque X prend des valeurs infĂ©rieures Ă  4, Y a tendance Ă  prendre des valeurs infĂ©rieures Ă  5. Ce n'est pas une relation dĂ©terministe, c'est une tendance statistique. Imaginez un graphique oĂč vous placez les paires de valeurs (x,y)(x, y) pour X et Y. Si vous voyez que la plupart des points se situent dans le quadrant supĂ©rieur droit (par rapport aux moyennes) ou infĂ©rieur gauche, alors la covariance sera positive. Si les points sont plutĂŽt dans le quadrant supĂ©rieur gauche ou infĂ©rieur droit, la covariance sera nĂ©gative. Notre rĂ©sultat de 5 confirme donc une tendance gĂ©nĂ©rale Ă  la hausse commune. Il est important de noter que la magnitude de la covariance dĂ©pend de l'Ă©chelle des variables. Une covariance de 5 peut sembler importante, mais si X et Y sont mesurĂ©es en millions, elle sera interprĂ©tĂ©e diffĂ©remment que si elles sont mesurĂ©es en unitĂ©s. C'est pourquoi on utilise souvent le coefficient de corrĂ©lation ($ ho = rac{Cov(X, Y)}{ ho_X ho_Y} $, oĂč $ ho_X $ et $ ho_Y $ sont les Ă©carts-types de X et Y), qui est une version normalisĂ©e et sans unitĂ© de la covariance, variant entre -1 et 1, pour comparer l'intensitĂ© des relations entre diffĂ©rentes paires de variables. Cependant, dans notre exercice, le simple fait d'obtenir un nombre positif comme 5 nous suffit Ă  conclure Ă  une association positive. Les mathĂ©matiques, c'est aussi savoir interprĂ©ter les rĂ©sultats pour en tirer des conclusions utiles.

Quand la covariance est nulle : Indépendance ou pas ?

Un point crucial Ă  comprendre avec la covariance, c'est sa relation avec l'indĂ©pendance des variables. Si deux variables alĂ©atoires X et Y sont indĂ©pendantes, alors leur covariance est nĂ©cessairement nulle : Cov(X,Y)=0Cov(X, Y) = 0. C'est une propriĂ©tĂ© fondamentale qui dĂ©coule du fait que si X et Y sont indĂ©pendantes, alors E(XY)=E(X)E(Y)E(XY) = E(X)E(Y). En appliquant notre formule magique, Cov(X,Y)=E(XY)−E(X)E(Y)Cov(X, Y) = E(XY) - E(X)E(Y), on obtient bien E(X)E(Y)−E(X)E(Y)=0E(X)E(Y) - E(X)E(Y) = 0. C'est une situation idĂ©ale oĂč la connaissance de la valeur de X ne nous donne absolument aucune information sur la valeur de Y, et vice-versa. Ils vivent leur vie chacun de leur cĂŽtĂ©, sans aucune influence mutuelle. Cependant, attention, les gars, car la rĂ©ciproque n'est pas toujours vraie ! Une covariance nulle (Cov(X,Y)=0Cov(X, Y) = 0) n'implique pas nĂ©cessairement que X et Y sont indĂ©pendantes. Il peut exister des relations entre X et Y qui ne sont pas linĂ©aires. Par exemple, imaginez une relation parabolique oĂč Y est proportionnel Ă  X2X^2. Si la distribution est symĂ©trique autour de zĂ©ro, la covariance pourrait ĂȘtre nulle mĂȘme s'il y a une forte dĂ©pendance. Pensons Ă  un exemple concret : soit X une variable qui prend les valeurs -1, 0, 1 avec une probabilitĂ© de 1/3 chacune. Soit Y = X2X^2. Alors E(X)=(−1)(1/3)+(0)(1/3)+(1)(1/3)=0E(X) = (-1)(1/3) + (0)(1/3) + (1)(1/3) = 0. E(Y)=E(X2)=(−1)2(1/3)+(0)2(1/3)+(1)2(1/3)=1/3+0+1/3=2/3E(Y) = E(X^2) = (-1)^2(1/3) + (0)^2(1/3) + (1)^2(1/3) = 1/3 + 0 + 1/3 = 2/3. Le produit XYXY prend les valeurs (−1)(1)=−1(-1)(1) = -1, (0)(0)=0(0)(0) = 0, (1)(1)=1(1)(1) = 1. Donc E(XY)=(−1)(1/3)+(0)(1/3)+(1)(1/3)=0E(XY) = (-1)(1/3) + (0)(1/3) + (1)(1/3) = 0. La covariance Cov(X,Y)=E(XY)−E(X)E(Y)=0−(0)(2/3)=0Cov(X, Y) = E(XY) - E(X)E(Y) = 0 - (0)(2/3) = 0. Pourtant, X et Y ne sont clairement pas indĂ©pendantes ; Y est une fonction dĂ©terministe de X ! C'est pourquoi, dans les statistiques, on utilise souvent le coefficient de corrĂ©lation pour mesurer la force et la direction de la relation linĂ©aire. Le coefficient de corrĂ©lation est simplement la covariance divisĂ©e par le produit des Ă©carts-types des deux variables. Il est toujours compris entre -1 et 1, ce qui le rend plus facile Ă  interprĂ©ter que la covariance seule, dont la magnitude dĂ©pend de l'Ă©chelle des variables. Mais pour notre exercice, savoir que Cov(X,Y)=0Cov(X, Y) = 0 peut ĂȘtre une indication forte (mais pas une preuve absolue) d'indĂ©pendance, surtout dans des contextes oĂč l'on suppose des relations linĂ©aires.

Cas particulier : Covariance avec soi-mĂȘme

Une autre façon de penser Ă  la covariance est de considĂ©rer la covariance d'une variable avec elle-mĂȘme. Qu'est-ce que Cov(X,X)Cov(X, X) ? En appliquant notre formule, on obtient Cov(X,X)=E(XimesX)−E(X)E(X)Cov(X, X) = E(X imes X) - E(X)E(X), ce qui se simplifie en Cov(X,X)=E(X2)−[E(X)]2Cov(X, X) = E(X^2) - [E(X)]^2. Et lĂ , pour les fans de statistiques, ça doit vous rappeler quelque chose ! Eh oui, cette formule est exactement la dĂ©finition de la variance de la variable alĂ©atoire X, notĂ©e Var(X)Var(X). Donc, Cov(X,X)=Var(X)Cov(X, X) = Var(X). La variance est une mesure de la dispersion des valeurs d'une variable alĂ©atoire autour de son espĂ©rance. Une variance Ă©levĂ©e signifie que les valeurs sont trĂšs dispersĂ©es, tandis qu'une variance faible indique que les valeurs sont concentrĂ©es autour de la moyenne. C'est une idĂ©e super logique : la