- Représenter une série statistique à deux variables par un nuage de points.
- Reconnaître une tendance (croissante / décroissante / non linéaire / absence de tendance).
- Construire et utiliser une droite d’ajustement affine \(y = ax + b\) (approximation).
- Interpréter une régression linéaire (moindres carrés) et un coefficient de corrélation.
- Adopter un esprit critique : domaine de validité, extrapolation, corrélation \(\neq\) causalité.
Une série statistique à deux variables est un ensemble de couples \((x_i ; y_i)\) : on observe simultanément deux caractères (souvent quantitatifs) sur les mêmes individus.
- \(x\) = nombre d’heures de révision, \(y\) = note obtenue.
- \(x\) = âge d’un véhicule, \(y\) = prix de revente.
- \(x\) = temps, \(y\) = température (attention : tendance parfois non linéaire).
Dans ce chapitre, on cherche souvent à modéliser \(y\) en fonction de \(x\) : “quand \(x\) augmente, comment \(y\) évolue ?”
Le nuage de points est la représentation des couples \((x_i ; y_i)\) dans un repère. Il sert à visualiser une tendance globale.
Quand \(x\) augmente, \(y\) a tendance à augmenter.
- Droite “montante” plausible
- Corrélation souvent positive
Quand \(x\) augmente, \(y\) a tendance à diminuer.
- Droite “descendante” plausible
- Corrélation souvent négative
Points “éparpillés” sans orientation.
- Modèle affine peu pertinent
- Corrélation proche de 0
Courbe (parabole, expo, saturation…).
- Une droite peut être trompeuse
- On adapte alors le modèle
Ne jamais conclure trop vite : un nuage peut sembler linéaire sur un petit intervalle, mais devenir non linéaire sur un intervalle plus grand. Toujours préciser le domaine de validité.
Un ajustement affine consiste à approximer la relation entre \(x\) et \(y\) par une droite : \[ y \approx ax + b \] où \(a\) est la pente et \(b\) l’ordonnée à l’origine.
\(a\) mesure l’variation moyenne de \(y\) quand \(x\) augmente de 1 : \[ \Delta y \approx a \cdot \Delta x \]
Exemple : si \(a = 2{,}5\), alors +1 unité de \(x\) correspond à environ +2,5 unités de \(y\).
\(b\) est la valeur “modélisée” de \(y\) quand \(x = 0\) : \[ y(0) \approx b \]
Attention : si \(x=0\) n’a aucun sens dans le contexte, \(b\) est un paramètre mathématique, mais pas une valeur “réelle” à interpréter.
Pour un ajustement “à la main”, on peut choisir deux points représentatifs du nuage (souvent “au milieu” et bien espacés), puis calculer : \[ a = \frac{y_2 - y_1}{x_2 - x_1} \qquad\text{et}\qquad b = y_1 - ax_1 \]
Cette méthode est approximative, mais souvent acceptée si elle est cohérente avec le nuage et correctement justifiée.
La régression linéaire fournit une droite \(y = ax + b\) calculée pour être la “meilleure” au sens des moindres carrés : elle minimise la somme des carrés des écarts verticaux entre les points et la droite.
- On utilise le plus souvent la droite donnée par la calculatrice / logiciel.
- On sait interpréter \(a\), \(b\) et faire des prévisions raisonnables.
- On doit discuter la pertinence : alignement, valeurs aberrantes, extrapolation.
Si \(x\) est dans l’intervalle observé, on estime : \[ \widehat{y} = ax + b \]
C’est en général la situation la plus fiable.
Si \(x\) est en dehors des données, la droite peut devenir fausse : \[ \widehat{y} = ax + b \quad \text{mais modèle incertain} \]
Toujours mentionner “extrapolation” et ses risques.
Le coefficient de corrélation linéaire, noté \(r\), mesure l’intensité d’un lien linéaire entre \(x\) et \(y\). Il vérifie : \[ -1 \le r \le 1 \]
- \(r \approx 1\) : forte corrélation positive (points proches d’une droite croissante).
- \(r \approx -1\) : forte corrélation négative (droite décroissante).
- \(r \approx 0\) : pas de corrélation linéaire marquée.
\(r \approx 0\) ne signifie pas “pas de lien” : le lien peut être non linéaire (courbe).
Exemple typique : \(y = x^2\) sur un intervalle symétrique autour de 0 : corrélation linéaire faible, alors que le lien est évident.
Une corrélation élevée ne prouve pas que “\(x\) cause \(y\)”. Il peut exister une variable cachée, un biais, ou une coïncidence.
- Exemple : ventes de glaces et noyades (variable cachée : température).
- Exemple : deux séries qui augmentent ensemble avec le temps (effet “tendance temporelle”).
- Allure globale : croissante / décroissante / non linéaire / éparpillée.
- Présence d’éventuelles valeurs aberrantes (points isolés).
- “Les points sont globalement alignés” \(\Rightarrow\) modèle affine pertinent.
- Sinon : “un modèle affine semble peu adapté”.
- Préciser \(a\) et \(b\) et leurs unités (si possible).
- Calculer une estimation \(\widehat{y}\) pour une valeur de \(x\).
- Dire si c’est interpolation ou extrapolation.
- Donner le signe et l’intensité via \(r\).
- Conclure prudemment : corrélation \(\neq\) causalité.
On observe 5 couples \((x_i ; y_i)\). Le nuage est globalement croissant et assez aligné. On choisit deux points représentatifs : \(A(2 ; 5)\) et \(B(10 ; 21)\).
\[ a=\frac{21-5}{10-2}=\frac{16}{8}=2 \qquad\Rightarrow\qquad b=5-2\times 2=1 \] Donc la droite d’ajustement est : \[ y \approx 2x + 1 \]
Prévision pour \(x=7\) (interpolation si \(7\) est dans les données) : \[ \widehat{y} = 2\times 7 + 1 = 15 \]
“Le nuage présente une tendance croissante et les points sont globalement alignés, donc un ajustement affine est pertinent. On obtient \(y \approx 2x + 1\). Pour \(x=7\), on estime \(y\) à environ 15. Cette estimation est une interpolation.”
- Extrapoler sans le dire, ou conclure trop fortement.
- Interpréter \(b\) alors que \(x=0\) n’a pas de sens dans le contexte.
- Confondre corrélation et causalité.
- Dire “pas de lien” parce que \(r \approx 0\) (possible lien non linéaire).
- Oublier unités / contexte (les coefficients ont souvent une signification concrète).