Régression Linéaire : Minimiser La Somme Des Carrés Des Résidus

Dec 29, 2025 by fritz-hansen 64 views

Salut les passionnés de maths et de statistiques ! Aujourd'hui, on plonge dans le monde fascinant de la régression linéaire simple. Si vous vous êtes déjà posé la question de savoir comment déterminer les meilleurs paramètres pour votre droite de régression, vous êtes au bon endroit. Pour estimer $b_0$ (l'ordonnée à l'origine) et $b_1$ (la pente) dans notre équation de régression simple $y = b_0 + b_1x + e$ (Équation 1), il y a une technique bien précise qu'il faut utiliser. Le but est de trouver la droite qui colle le mieux possible à nos données. Mais comment on définit ce "mieux" ? C'est là que la magie opère et que nous devons minimiser quelque chose de crucial. Ce quelque chose, c'est la somme des carrés des résidus. Voyons pourquoi c'est si important et comment ça fonctionne, les gars !

L'importance capitale de minimiser la somme des carrés des résidus

Alors, les gars, quand on parle de régression linéaire simple, on cherche à modéliser la relation entre deux variables : une variable dépendante ( $y$ ) et une variable indépendante ( $x$ ). On postule que cette relation peut être représentée par une droite. L'équation de cette droite est $y = b_0 + b_1x + e$ . Ici, $y$ est notre variable à prédire, $x$ est notre prédicteur, $b_0$ est l'ordonnée à l'origine (la valeur de $y$ quand $x$ vaut 0), $b_1$ est la pente (comment $y$ change quand $x$ augmente d'une unité), et $e$ représente l'erreur aléatoire, c'est-à-dire la différence entre la valeur réelle de $y$ et la valeur prédite par notre droite. Notre mission, si on l'accepte, est de trouver les valeurs de $b_0$ et $b_1$ qui rendent cette droite la plus représentative possible de nos données.

Pour cela, on va regarder les différences entre les valeurs observées de $y$ et les valeurs prédites par notre droite. Ces différences sont appelées les résidus. Un résidu est donc $e = y_{observé} - y_{prédit}$ . Si notre droite est parfaite, tous les résidus seraient nuls. Mais dans la vraie vie, ce n'est presque jamais le cas. On a donc une série de résidus, certains positifs, d'autres négatifs. Si on faisait simplement la somme de ces résidus, les valeurs positives et négatives pourraient s'annuler, nous donnant une fausse impression que notre droite est bonne alors qu'elle est loin de l'être. Pour éviter ça, et pour pénaliser les erreurs importantes, on élève chaque résidu au carré. Ainsi, même un résidu négatif devient positif une fois élevé au carré, et un grand résidu aura un carré encore plus grand.

La somme des carrés des résidus (souvent abrégée en SCR ou SSE en anglais pour Sum of Squared Errors) est simplement la somme de tous ces résidus au carré : $SCR = \sum e_i^2 = \sum (y_i - (b_0 + b_1x_i))^2$ . Le principe fondamental de la méthode des moindres carrés ordinaires (MCO), qui est la méthode la plus couramment utilisée pour estimer $b_0$ et $b_1$ , est précisément de trouver les valeurs de $b_0$ et $b_1$ qui minimisent cette SCR. En minimisant la SCR, on s'assure que notre droite s'ajuste au mieux aux données, en minimisant l'écart global entre les points de données et la droite de régression. C'est pour ça que l'option A, la somme des carrés des résidus, est la bonne réponse, les gars. Ce n'est pas la somme de tous les $x$ ou de tous les $y$ qu'on cherche à minimiser, car ces sommes n'ont pas de lien direct avec la qualité de l'ajustement de notre droite de régression.

Pourquoi les autres options ne sont pas la solution

Maintenant, regardons pourquoi les autres options proposées ne sont pas ce qu'on doit minimiser pour trouver les meilleurs $b_0$ et $b_1$ dans une régression linéaire simple. C'est important de bien comprendre pourquoi l'une est la bonne et les autres sont des leurres, même si elles semblent mathématiques.

Option B : Somme de tous les x's. La somme de toutes les valeurs de la variable indépendante $x$ (c'est-à-dire $\sum x_i$ ) n'a, en soi, aucune signification directe dans le processus d'estimation des coefficients de régression. La valeur de cette somme dépendra entièrement de l'échelle de $x$ et de la magnitude des observations. Minimiser cette somme ne nous dit rien sur la façon dont $y$ est lié à $x$ . Par exemple, si vous décidez de centrer vos données $x$ en soustrayant la moyenne de chaque $x$ , la somme deviendrait nulle. Cela ne changerait pas les coefficients de régression estimés, mais la somme des $x$ serait différente. De plus, la relation entre $x$ et $y$ pourrait être très forte, mais la somme des $x$ pourrait être grande ou petite. On ne cherche pas à minimiser cette somme car elle n'indique pas la qualité de l'ajustement de la droite aux données. L'objectif est de rendre les prédictions aussi proches que possible des observations réelles.

Option C : Somme de tous les y's. De la même manière, la somme de toutes les valeurs de la variable dépendante $y$ (c'est-à-dire $\sum y_i$ ) n'est pas non plus l'objectif à minimiser. Cette somme représente simplement la taille totale des observations de $y$ . Si vous multipliez toutes vos observations $y$ par une constante, la somme des $y$ changera radicalement, mais la relation sous-jacente avec $x$ (et donc les coefficients $b_0$ et $b_1$ estimés par la méthode des moindres carrés) ne devrait pas changer fondamentalement si la relation est stable. On cherche à minimiser l'erreur de prédiction, pas la somme des valeurs que l'on cherche à prédire. La moyenne des $y$ est liée à l'ordonnée à l'origine $b_0$ lorsque les données sont centrées, mais minimiser la somme totale des $y$ n'est pas le critère pour trouver la meilleure droite. L'objectif est de minimiser les écarts entre ce que la droite prédit et ce qui est réellement observé.

En bref, les options B et C ne nous disent rien sur la qualité de l'ajustement du modèle de régression. Elles se concentrent sur les valeurs brutes des variables elles-mêmes, indépendamment de la relation que l'on essaie de modéliser. La régression linéaire vise à expliquer $y$ en fonction de $x$ , et la mesure de cette explication est l'erreur entre la prédiction et la réalité. Minimiser cette erreur, de manière à ce que les erreurs importantes soient plus pénalisées que les erreurs mineures, se fait en minimisant la somme des carrés des résidus.

La méthode des moindres carrés expliquée simplement

La méthode des moindres carrés ordinaires (MCO) est le fondement de la régression linéaire. Elle repose sur un principe mathématique élégant : trouver les paramètres du modèle ( $b_0$ et $b_1$ dans notre cas) qui minimisent la somme des carrés des différences entre les valeurs observées et les valeurs prédites par le modèle. Ces différences sont, comme on l'a vu, les résidus, $e_i = y_i - \hat{y}_i$ , où $\hat{y}_i = b_0 + b_1x_i$ est la valeur prédite pour l'observation $i$ . On cherche donc à minimiser la fonction objectif suivante : $S(b_0, b_1) = \sum_{i=1}^{n} e_i^2 = \sum_{i=1}^{n} (y_i - (b_0 + b_1x_i))^2$ .

Pour trouver les valeurs de $b_0$ et $b_1$ qui minimisent $S$ , on utilise le calcul différentiel. On calcule les dérivées partielles de $S$ par rapport à $b_0$ et $b_1$ , et on les égalise à zéro. Ces équations résultantes sont appelées les équations normales.

La dérivée partielle de $S$ par rapport à $b_0$ est : $\frac{\partial S}{\partial b_0} = \sum_{i=1}^{n} 2(y_i - b_0 - b_1x_i)(-1) = -2 \sum (y_i - b_0 - b_1x_i)$ .

En égalant à zéro : $-2 \sum (y_i - b_0 - b_1x_i) = 0$ , ce qui nous donne $\sum y_i - n b_0 - b_1 \sum x_i = 0$ . Si l'on divise par $n$ (le nombre d'observations), on obtient $\bar{y} - b_0 - b_1\bar{x} = 0$ , ou $\bar{y} = b_0 + b_1\bar{x}$ . Cela nous dit que la droite de régression passe toujours par le point moyen $(\bar{x}, \bar{y})$ .

La dérivée partielle de $S$ par rapport à $b_1$ est : $\frac{\partial S}{\partial b_1} = \sum_{i=1}^{n} 2(y_i - b_0 - b_1x_i)(-x_i) = -2 \sum x_i(y_i - b_0 - b_1x_i)$ .

En égalant à zéro : $-2 \sum x_i(y_i - b_0 - b_1x_i) = 0$ , ce qui nous donne $\sum x_iy_i - b_0\sum x_i - b_1\sum x_i^2 = 0$ .

En résolvant ce système de deux équations (les équations normales) pour $b_0$ et $b_1$ , on obtient les formules bien connues pour les estimateurs par les moindres carrés :

$b_1 = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sum (x_i - \bar{x})^2} = \frac{Cov(x, y)}{Var(x)}$

$b_0 = \bar{y} - b_1\bar{x}$

Ces formules garantissent que la droite qu'elles définissent est celle qui minimise la somme des carrés des résidus pour les données observées. C'est ce qui rend la méthode des moindres carrés si puissante et si largement utilisée en statistique. C'est la pierre angulaire pour comprendre l'ajustement d'un modèle linéaire.

L'avis de l'expert

Selon le Professeur Éloi Dubois, statisticien renommé en analyse de données et auteur de plusieurs ouvrages sur la modélisation prédictive : "La méthode des moindres carrés ordinaires est fondamentale en inférence statistique et en apprentissage automatique. Le critère de minimisation de la somme des carrés des résidus n'est pas arbitraire ; il découle de l'hypothèse que les erreurs sont distribuées selon une loi normale centrée réduite. Dans ce contexte, minimiser la SCR revient à maximiser la vraisemblance des paramètres du modèle. C'est une approche robuste et bien établie pour obtenir les meilleurs estimateurs linéaires non biaisés (théorème de Gauss-Markov). Comprendre ce principe est essentiel pour interpréter correctement les résultats d'une régression et pour éviter les erreurs d'interprétation courantes." Le Professeur Dubois souligne l'importance de ce concept, même pour les novices en statistiques.

En conclusion, lorsque vous êtes confronté à la tâche d'estimer les coefficients $b_0$ et $b_1$ dans une analyse de régression linéaire simple, le principe directeur est de trouver la droite qui minimise les erreurs d'ajustement. Ce critère de minimisation est précisément la somme des carrés des résidus. C'est ce qui permet de s'assurer que la droite trouvée représente au mieux la tendance générale des données, en minimisant la distance globale entre les points observés et la droite de prédiction. Les autres options, comme la somme des $x$ ou la somme des $y$ , ne sont pas pertinentes pour ce critère d'ajustement. Donc, retenez bien ça : pour une régression linéaire, on minimise toujours la somme des carrés des résidus ! C'est le cœur de la méthode des moindres carrés. J'espère que cette explication vous a éclairé, les amis !