Statistiques à deux variables

Nuage de points • ajustement affine • régression linéaire • corrélation • esprit critique.

Cours premium — Statistiques à deux variables
Nuage de points • droite d’ajustement • régression linéaire • corrélation • esprit critique.
Lecture graphique Ajustement Régression Esprit critique Bac
Objectifs
  • Représenter une série statistique à deux variables par un nuage de points.
  • Reconnaître une tendance (croissante / décroissante / non linéaire / absence de tendance).
  • Construire et utiliser une droite d’ajustement affine \(y = ax + b\) (approximation).
  • Interpréter une régression linéaire (moindres carrés) et un coefficient de corrélation.
  • Adopter un esprit critique : domaine de validité, extrapolation, corrélation \(\neq\) causalité.
1) Série statistique à deux variables

Une série statistique à deux variables est un ensemble de couples \((x_i ; y_i)\) : on observe simultanément deux caractères (souvent quantitatifs) sur les mêmes individus.

Exemples
  • \(x\) = nombre d’heures de révision, \(y\) = note obtenue.
  • \(x\) = âge d’un véhicule, \(y\) = prix de revente.
  • \(x\) = temps, \(y\) = température (attention : tendance parfois non linéaire).

Dans ce chapitre, on cherche souvent à modéliser \(y\) en fonction de \(x\) : “quand \(x\) augmente, comment \(y\) évolue ?”

2) Nuage de points

Le nuage de points est la représentation des couples \((x_i ; y_i)\) dans un repère. Il sert à visualiser une tendance globale.

Tendance croissante

Quand \(x\) augmente, \(y\) a tendance à augmenter.

  • Droite “montante” plausible
  • Corrélation souvent positive
Tendance décroissante

Quand \(x\) augmente, \(y\) a tendance à diminuer.

  • Droite “descendante” plausible
  • Corrélation souvent négative
Aucune tendance claire

Points “éparpillés” sans orientation.

  • Modèle affine peu pertinent
  • Corrélation proche de 0
Tendance non linéaire

Courbe (parabole, expo, saturation…).

  • Une droite peut être trompeuse
  • On adapte alors le modèle
Piège Bac

Ne jamais conclure trop vite : un nuage peut sembler linéaire sur un petit intervalle, mais devenir non linéaire sur un intervalle plus grand. Toujours préciser le domaine de validité.

3) Ajustement affine : \(y \approx ax + b\)

Un ajustement affine consiste à approximer la relation entre \(x\) et \(y\) par une droite : \[ y \approx ax + b \] où \(a\) est la pente et \(b\) l’ordonnée à l’origine.

Interpréter \(a\)

\(a\) mesure l’variation moyenne de \(y\) quand \(x\) augmente de 1 : \[ \Delta y \approx a \cdot \Delta x \]

Exemple : si \(a = 2{,}5\), alors +1 unité de \(x\) correspond à environ +2,5 unités de \(y\).

Interpréter \(b\)

\(b\) est la valeur “modélisée” de \(y\) quand \(x = 0\) : \[ y(0) \approx b \]

Attention : si \(x=0\) n’a aucun sens dans le contexte, \(b\) est un paramètre mathématique, mais pas une valeur “réelle” à interpréter.

Méthode simple : droite passant par deux points

Pour un ajustement “à la main”, on peut choisir deux points représentatifs du nuage (souvent “au milieu” et bien espacés), puis calculer : \[ a = \frac{y_2 - y_1}{x_2 - x_1} \qquad\text{et}\qquad b = y_1 - ax_1 \]

Cette méthode est approximative, mais souvent acceptée si elle est cohérente avec le nuage et correctement justifiée.

4) Régression linéaire (moindres carrés)

La régression linéaire fournit une droite \(y = ax + b\) calculée pour être la “meilleure” au sens des moindres carrés : elle minimise la somme des carrés des écarts verticaux entre les points et la droite.

Ce qu’il faut savoir au niveau Maths complémentaires
  • On utilise le plus souvent la droite donnée par la calculatrice / logiciel.
  • On sait interpréter \(a\), \(b\) et faire des prévisions raisonnables.
  • On doit discuter la pertinence : alignement, valeurs aberrantes, extrapolation.
Prévision (interpolation)

Si \(x\) est dans l’intervalle observé, on estime : \[ \widehat{y} = ax + b \]

C’est en général la situation la plus fiable.

Extrapolation : prudence

Si \(x\) est en dehors des données, la droite peut devenir fausse : \[ \widehat{y} = ax + b \quad \text{mais modèle incertain} \]

Toujours mentionner “extrapolation” et ses risques.

5) Corrélation linéaire

Le coefficient de corrélation linéaire, noté \(r\), mesure l’intensité d’un lien linéaire entre \(x\) et \(y\). Il vérifie : \[ -1 \le r \le 1 \]

Interprétation de \(r\)
  • \(r \approx 1\) : forte corrélation positive (points proches d’une droite croissante).
  • \(r \approx -1\) : forte corrélation négative (droite décroissante).
  • \(r \approx 0\) : pas de corrélation linéaire marquée.
Attention : “pas de corrélation”

\(r \approx 0\) ne signifie pas “pas de lien” : le lien peut être non linéaire (courbe).

Exemple typique : \(y = x^2\) sur un intervalle symétrique autour de 0 : corrélation linéaire faible, alors que le lien est évident.

Corrélation \(\neq\) causalité

Une corrélation élevée ne prouve pas que “\(x\) cause \(y\)”. Il peut exister une variable cachée, un biais, ou une coïncidence.

  • Exemple : ventes de glaces et noyades (variable cachée : température).
  • Exemple : deux séries qui augmentent ensemble avec le temps (effet “tendance temporelle”).
6) Rédaction type Bac : analyse complète
1
Décrire le nuage
  • Allure globale : croissante / décroissante / non linéaire / éparpillée.
  • Présence d’éventuelles valeurs aberrantes (points isolés).
2
Justifier l’ajustement affine
  • “Les points sont globalement alignés” \(\Rightarrow\) modèle affine pertinent.
  • Sinon : “un modèle affine semble peu adapté”.
3
Donner / utiliser la droite \(y=ax+b\)
  • Préciser \(a\) et \(b\) et leurs unités (si possible).
  • Calculer une estimation \(\widehat{y}\) pour une valeur de \(x\).
  • Dire si c’est interpolation ou extrapolation.
4
Interpréter la corrélation
  • Donner le signe et l’intensité via \(r\).
  • Conclure prudemment : corrélation \(\neq\) causalité.
Mini-exemple guidé (méthode)

On observe 5 couples \((x_i ; y_i)\). Le nuage est globalement croissant et assez aligné. On choisit deux points représentatifs : \(A(2 ; 5)\) et \(B(10 ; 21)\).

Construction d’une droite d’ajustement “à la main”

\[ a=\frac{21-5}{10-2}=\frac{16}{8}=2 \qquad\Rightarrow\qquad b=5-2\times 2=1 \] Donc la droite d’ajustement est : \[ y \approx 2x + 1 \]

Prévision pour \(x=7\) (interpolation si \(7\) est dans les données) : \[ \widehat{y} = 2\times 7 + 1 = 15 \]

Phrase Bac attendue

“Le nuage présente une tendance croissante et les points sont globalement alignés, donc un ajustement affine est pertinent. On obtient \(y \approx 2x + 1\). Pour \(x=7\), on estime \(y\) à environ 15. Cette estimation est une interpolation.”

Checklist Bac — erreurs à éviter
  • Extrapoler sans le dire, ou conclure trop fortement.
  • Interpréter \(b\) alors que \(x=0\) n’a pas de sens dans le contexte.
  • Confondre corrélation et causalité.
  • Dire “pas de lien” parce que \(r \approx 0\) (possible lien non linéaire).
  • Oublier unités / contexte (les coefficients ont souvent une signification concrète).
Aller plus loin
Remarque : l’ajustement affine est un modèle. Il sert à décrire et prévoir avec prudence, pas à “prouver” une relation de cause à effet.