Statistiques à deux variables

Nuage de points • ajustement affine • régression linéaire • corrélation • esprit critique.

Exercices premium — Statistiques à deux variables
8 exercices (progressifs + pièges) avec corrigés détaillés : nuage, ajustement affine, régression, corrélation, interpolation/extrapolation, esprit critique.
HARD 19–20/20 Données réelles Esprit critique Corrigés
Exercice 1 — Ajustement affine “à la main” (piège unités)

On étudie l’effet du temps de révision \(x\) (en heures) sur la note \(y\) (sur 20). On a relevé les couples \((x ; y)\) suivants :

\(x\) (h) 2356810
\(y\) (/20) 7912131618
  1. Décrire la tendance globale du nuage (sans calcul).
  2. On choisit \(A(2 ; 7)\) et \(B(10 ; 18)\) pour une droite d’ajustement. Calculer \(a\) et \(b\), puis donner un modèle \(y \approx ax+b\).
  3. Interpréter \(a\) dans le contexte (en précisant l’unité).
  4. Estimer la note pour \(x=7\). Dire si c’est interpolation ou extrapolation.
Afficher le corrigé
Astuce : pente \(a=\dfrac{\Delta y}{\Delta x}\), puis \(b=y-ax\).
Corrigé
  1. Tendance croissante : quand \(x\) augmente, \(y\) augmente globalement.
  2. \[ a=\frac{18-7}{10-2}=\frac{11}{8}=1{,}375 \qquad b=7-1{,}375\times 2=7-2{,}75=4{,}25 \] Donc \(y \approx 1{,}375x + 4{,}25\).
  3. \(a \approx 1{,}375\) signifie : 1 heure de révision en plus correspond en moyenne à environ 1,38 point de plus sur 20.
  4. \[ \widehat{y}=1{,}375\times 7+4{,}25=9{,}625+4{,}25=13{,}875\approx 13{,}9 \] Comme \(7\in[2;10]\), c’est une interpolation.
Exercice 2 — Régression linéaire : prévisions et limites

Une calculatrice fournit, à partir de données de consommation d’un véhicule, la droite de régression : \[ y = 0{,}62x + 4{,}1 \] où \(x\) est la vitesse (en dizaines de km/h) et \(y\) la consommation (en L/100 km). Les données observées correspondent à \(x \in [5; 13]\) (soit de 50 à 130 km/h).

  1. Interpréter \(a=0{,}62\) dans le contexte.
  2. Estimer la consommation à 90 km/h.
  3. Un élève estime la consommation à 170 km/h avec ce modèle. Expliquer précisément le problème.
  4. Donner une phrase “Bac” correcte pour conclure sur la fiabilité à 170 km/h.
Afficher le corrigé
Astuce : \(x\) est en dizaines de km/h (90 km/h ⟹ \(x=9\)).
Corrigé
  1. \(x\) augmente de 1 quand la vitesse augmente de 10 km/h. Donc +10 km/h ⟹ +0,62 L/100 km (en moyenne).
  2. 90 km/h ⟹ \(x=9\). \[ y=0{,}62\times 9+4{,}1=5{,}58+4{,}1=9{,}68 \] Donc \(\approx 9{,}7\) L/100 km (interpolation car \(9\in[5;13]\)).
  3. 170 km/h ⟹ \(x=17\) qui n’appartient pas à \([5;13]\). C’est une extrapolation : le comportement du véhicule peut changer (aérodynamique, régime moteur…), la droite peut devenir fausse.
  4. “L’estimation à 170 km/h est une extrapolation hors du domaine des données \([50;130]\) km/h : elle est donc peu fiable et doit être prise avec prudence.”
Exercice 3 — Corrélation faible… mais lien évident (non linéaire)

On observe les couples \((x ; y)\) suivants : \[ (-3 ; 9),\, (-2 ; 4),\, (-1 ; 1),\, (0 ; 0),\, (1 ; 1),\, (2 ; 4),\, (3 ; 9) \]

  1. Sans calcul, quelle relation simple semble relier \(x\) et \(y\) ?
  2. Expliquer pourquoi un ajustement affine est inadapté.
  3. Que peut-on dire d’un coefficient de corrélation \(r\) calculé sur ces données ?
  4. Conclure : “\(r\) proche de 0” signifie-t-il “aucun lien” ?
Afficher le corrigé
Astuce : un lien fort peut être non linéaire (ex : \(y=x^2\)).
Corrigé
  1. On reconnaît \(y=x^2\).
  2. Le nuage forme une courbe (parabole), pas un alignement : une droite décrit mal la tendance.
  3. Par symétrie, une corrélation linéaire peut être proche de 0.
  4. Non : \(r\approx 0\) indique seulement une absence de lien linéaire marqué. Ici le lien est fort mais non linéaire.
Exercice 4 — Valeur aberrante : faut-il l’enlever ?

On mesure \(x\) = âge (en années) et \(y\) = prix (en milliers d’euros) d’un modèle de téléphone d’occasion. Données :

\(x\)1122334
\(y\)0,620,580,440,410,310,281,20
  1. Décrire la tendance globale en ignorant le dernier point \((4 ; 1{,}20)\).
  2. Pourquoi \((4 ; 1{,}20)\) est-il suspect ? Donner 2 hypothèses réalistes.
  3. Expliquer l’effet probable de ce point sur la droite de régression et sur \(r\).
  4. Proposer une démarche “propre” (esprit critique) avant d’enlever ce point.
Afficher le corrigé
Astuce : un outlier peut “tirer” la droite et faire chuter \(|r|\).
Corrigé
  1. Sans le dernier point : tendance décroissante (plus l’âge augmente, plus le prix baisse).
  2. Il contredit la tendance. Hypothèses : (i) erreur de saisie (1,20 au lieu de 0,20), (ii) modèle différent / “édition rare”, (iii) prix neuf ou lot avec accessoires.
  3. Il tire la droite vers le haut à \(x=4\) : pente moins négative voire positive, et il peut fortement diminuer \(|r|\) (nuage moins aligné).
  4. Vérifier la source : même modèle ? même unité ? erreur de virgule ? justificatifs ? Puis décider : soit correction, soit séparation en deux séries, soit maintien avec commentaire.
Exercice 5 — Deux modèles : lequel choisir ?

On modélise une relation entre \(x\) (en années) et \(y\) (en milliers d’€). Deux ajustements sont proposés :

Modèle A

\(\;y = -1{,}8x + 22{,}0\)

Corrélation : \(r = -0{,}93\)

Modèle B

\(\;y = -2{,}1x + 25{,}5\)

Corrélation : \(r = -0{,}96\)

Les données observées correspondent à \(x \in [3; 7]\).

  1. Quel modèle semble le plus “aligné” au sens de la corrélation ?
  2. Estimer \(y\) pour \(x=5\) avec chaque modèle.
  3. Peut-on choisir le modèle uniquement parce que \(|r|\) est plus grand ? Expliquer.
  4. Donner 2 critères supplémentaires (concrets) pour départager A et B.
Afficher le corrigé
Astuce : \(|r|\) aide, mais on doit aussi regarder les résidus et le domaine.
Corrigé
  1. \(|r_B|=0,96\) est un peu plus grand : nuage a priori un peu plus proche d’une droite pour B.
  2. \(x=5\) : \[ y_A=-1{,}8\times 5 + 22 = -9 + 22 = 13 \] \[ y_B=-2{,}1\times 5 + 25{,}5 = -10{,}5 + 25{,}5 = 15 \]
  3. Non : \(r\) mesure l’alignement global mais ne garantit pas la pertinence contextuelle (unités, sens de \(b\), cohérence avec la situation, outliers, domaine, etc.).
  4. Exemples de critères : (i) vérifier les résidus (écarts aux points), (ii) cohérence de \(b\) avec \(x=0\), (iii) performance sur des données de test, (iv) stabilité si on enlève un outlier.
Exercice 6 — Inversion des variables : attention au sens

On étudie la relation entre \(x\) = température (°C) et \(y\) = ventes (en centaines). Une droite \(y=ax+b\) est proposée pour prévoir les ventes à partir de la température.

  1. Pourquoi le choix “prévoir \(y\) à partir de \(x\)” doit-il être justifié ?
  2. Donner un exemple où inverser les rôles (prévoir la température à partir des ventes) n’a pas de sens.
  3. Expliquer pourquoi “la droite d’ajustement” dépend du choix de l’axe \(x\).
Afficher le corrigé
Astuce : la régression minimise des écarts verticaux (donc dépend du choix de \(x\)).
Corrigé
  1. On modélise un lien directionnel : ici on suppose que la température influence les ventes, pas l’inverse. On choisit \(x\) comme variable explicative.
  2. Exemple : les ventes dépendent de la météo ; prévoir la météo à partir des ventes est absurde (les ventes ne “causent” pas la température).
  3. La régression minimise des écarts verticaux : changer \(x\) et \(y\) change ce qui est minimisé, donc on obtient une autre droite.
Exercice 7 — Prévision : annoncer l’incertitude

Une droite de régression obtenue sur des données d’une ville est : \[ y = 1{,}12x + 3{,}8 \] où \(x\) est le nombre d’années depuis 2015 et \(y\) la consommation d’eau (en millions de m\(^3\)). Les données utilisées couvrent 2015 à 2023.

  1. Traduire “2015 à 2023” en intervalle pour \(x\).
  2. Estimer \(y\) pour 2021.
  3. Estimer \(y\) pour 2030. Indiquer la nature de l’estimation et formuler une conclusion prudente.
  4. Donner 2 raisons possibles pour lesquelles le modèle pourrait échouer après 2023.
Afficher le corrigé
Astuce : 2015 ⟹ \(x=0\), 2023 ⟹ \(x=8\).
Corrigé
  1. 2015 ⟹ \(x=0\). 2023 ⟹ \(x=8\). Donc \(x\in[0;8]\).
  2. 2021 ⟹ \(x=6\) : \[ y=1{,}12\times 6+3{,}8=6{,}72+3{,}8=10{,}52 \] Donc \(\approx 10{,}5\).
  3. 2030 ⟹ \(x=15\) hors \([0;8]\) : extrapolation. \[ y=1{,}12\times 15+3{,}8=16{,}8+3{,}8=20{,}6 \] Conclusion Bac : estimation peu fiable car hors des données ; à prendre avec prudence.
  4. Exemples : politiques d’économie d’eau, changement climatique, évolution de population, nouvelles infrastructures, restrictions, etc.
Exercice 8 — Corrélation illusoire : argumenter correctement

Un article affirme : “Le nombre de films vus au cinéma par mois est fortement corrélé au niveau en maths. Donc aller plus au cinéma améliore le niveau en maths.”

  1. Identifier précisément l’erreur de raisonnement.
  2. Proposer une variable cachée plausible expliquant la corrélation.
  3. Proposer une méthode d’enquête (type scientifique) pour tester l’hypothèse de causalité.
  4. Rédiger une conclusion courte et correcte (style Bac).
Afficher le corrigé
Astuce : corrélation ≠ causalité (variable cachée).
Corrigé
  1. Corrélation ≠ causalité : une corrélation ne prouve pas que l’une cause l’autre.
  2. Ex : niveau socio-culturel, temps libre, accès aux ressources éducatives, motivation générale, etc.
  3. Étude contrôlée : comparer deux groupes similaires, isoler la variable “cinéma”, ou analyser un grand échantillon en contrôlant des variables (temps de travail, milieu social…).
  4. “Même si une corrélation est observée, elle ne prouve pas un lien de cause à effet. D’autres facteurs peuvent expliquer cette relation ; on ne peut donc pas conclure.”
Objectif : savoir modéliser (avec prudence) et surtout interpréter correctement.