Cours — Statistiques et échantillonnage
Effectifs/fréquences • moyenne • médiane • quartiles • diagrammes • échantillon • estimation simple (proportion).
1) Objectifs et réflexes
Compétences attendues (2nde)
- Construire et lire un tableau d’effectifs et de fréquences (et fréquences cumulées).
- Calculer une moyenne (simple ou pondérée par les effectifs).
- Déterminer médiane et quartiles à partir d’une liste ordonnée (ou effectifs cumulés).
- Choisir un diagramme adapté (bâtons, secteurs, histogramme) et interpréter.
- Comprendre échantillon, population, représentativité et biais.
- Faire une estimation simple d’une proportion à partir d’un échantillon (lecture + bon sens).
Pièges fréquents (très importants)
- Oublier de trier la série avant de chercher médiane/quartiles.
- Confondre moyenne et médiane (la moyenne “bouge” beaucoup avec des valeurs extrêmes).
- Histogramme : classes → attention aux largeurs (et donc à la lecture visuelle).
- Fréquence ≠ pourcentage : \(\text{pourcentage} = 100\times \text{fréquence}\).
- Un échantillon “facile” (réseaux sociaux, même classe…) peut être très biaisé.
Réflexe méthode : (1) je définis la population et la variable, (2) je fais un tableau clair,
(3) je calcule les indicateurs, (4) j’interprète avec une phrase.
2) Vocabulaire de base
Population, individu, variable
- Population : ensemble étudié (ex : tous les élèves de 2nde d’un lycée).
- Individu : un élément de la population (ex : un élève).
- Variable : ce qu’on mesure/observe :
- qualitative (couleur, catégorie…)
- quantitative (taille, note, durée…)
Modalités, effectif, fréquence
- Modalité : valeur (ou classe de valeurs) prise par la variable.
- Effectif d’une modalité : nombre d’individus qui la prennent.
- Effectif total : \(N\).
- Fréquence : \(\displaystyle f=\frac{\text{effectif}}{N}\) (entre 0 et 1).
- Pourcentage : \(100f\ \%\).
Série statistique (écriture)
Une série peut être donnée :
- en liste brute : \(x_1,x_2,\dots,x_N\)
- en tableau : modalités \(x_i\) + effectifs \(n_i\)
- en classes : intervalles (ex : \([10 ; 12[,\ [12 ; 14[\dots\)) + effectifs
3) Effectifs, fréquences et cumulés
Formules
\[
N=\sum n_i
\qquad
f_i=\frac{n_i}{N}
\qquad
\%_i = 100 f_i
\]
\[
\text{effectif cumulé}:\ N_k=\sum_{i\le k} n_i
\qquad
\text{fréquence cumulée}:\ F_k=\sum_{i\le k} f_i
\]
Interprétation
- Une fréquence cumulée \(F_k\) se lit : “proportion d’individus ayant une valeur \(\le x_k\)” (ou dans les classes jusqu’à \(k\)).
- On vérifie toujours : \(\sum f_i = 1\) (à l’arrondi près).
Exemple 1 — Tableau complet (effectifs, fréquences, cumulés)
Une classe de 30 élèves : nombre de livres lus le mois dernier (variable quantitative discrète).
| Livres \(x_i\) | Effectif \(n_i\) | Fréquence \(f_i=\frac{n_i}{30}\) | Effectif cumulé \(N_i\) | Fréquence cumulée \(F_i\) |
|---|---|---|---|---|
| 0 | 6 | \(\frac{6}{30}=0{,}20\) | 6 | 0,20 |
| 1 | 10 | \(\frac{10}{30}=0{,}333\dots\) | 16 | 0,533… |
| 2 | 8 | \(\frac{8}{30}=0{,}266\dots\) | 24 | 0,80 |
| 3 | 4 | \(\frac{4}{30}=0{,}133\dots\) | 28 | 0,933… |
| 4 | 2 | \(\frac{2}{30}=0{,}066\dots\) | 30 | 1 |
Lecture : \(F(2)=0{,}80\) signifie “80 % des élèves ont lu au plus 2 livres”.
4) Moyenne (simple / pondérée)
Définition
Si la série est donnée en tableau \((x_i, n_i)\) :
\[
\bar{x}=\frac{\sum (n_i x_i)}{\sum n_i}=\frac{\sum (n_i x_i)}{N}.
\]
En liste brute : \(\displaystyle \bar{x}=\frac{x_1+\cdots+x_N}{N}\).
Sens et robustesse
- La moyenne “résume” par un point d’équilibre, mais elle est sensible aux valeurs extrêmes.
- Si une valeur énorme apparaît, la moyenne peut être trompeuse.
Piège : ne pas oublier de multiplier \(x_i\) par l’effectif \(n_i\).
Exemple 2 — Moyenne pondérée (calcul propre)
Notes (sur 20) d’un devoir : 8 élèves ont 12, 15 élèves ont 9, 5 élèves ont 18, 2 élèves ont 2.
- Total : \(N=8+15+5+2=30\).
- Somme pondérée : \(S=8\times 12+15\times 9+5\times 18+2\times 2\).
- \(S=96+135+90+4=325\).
- \(\displaystyle \bar{x}=\frac{325}{30}\approx 10{,}83\).
Conclusion : \(\boxed{\bar{x}\approx 10{,}83}\) (sur 20).
La valeur “2” tire la moyenne vers le bas : c’est un effet d’extrême.
5) Médiane
Définition (idée)
La médiane partage la série en deux “moitiés” :
- au moins 50 % des valeurs sont \(\le m\)
- au moins 50 % des valeurs sont \(\ge m\)
Méthode (liste ordonnée)
On trie la liste (croissante).
- Si \(N\) est impair : médiane = valeur de rang \(\frac{N+1}{2}\).
- Si \(N\) est pair : on prend souvent la moyenne des deux valeurs centrales (rang \(\frac{N}{2}\) et \(\frac{N}{2}+1\)).
Exemple 3 — Médiane sur liste (pair + piège)
Données (déjà triées) : \(2,\ 6,\ 7,\ 9,\ 10,\ 11,\ 12,\ 18\). Ici \(N=8\) (pair).
- Valeurs centrales : rang 4 et 5 → \(9\) et \(10\).
- \(\displaystyle m=\frac{9+10}{2}=9{,}5\).
Médiane : \(\boxed{m=9{,}5}\).
6) Quartiles \(Q_1\) et \(Q_3\) (et étendue / IQR)
Définition (niveau 2nde)
Pour une série ordonnée de taille \(N\) :
- \(Q_1\) : une valeur telle qu’au moins 25 % des données sont \(\le Q_1\).
- \(Q_3\) : une valeur telle qu’au moins 75 % des données sont \(\le Q_3\).
Dispersion
- Étendue : \(\max - \min\) (très sensible aux extrêmes).
- Écart interquartile : \(IQR = Q_3 - Q_1\) (plus robuste).
Attention : selon les conventions (logiciels), les rangs peuvent varier. En 2nde, on suit la méthode “au moins 25 % / 75 %” via les cumulés.
Exemple 4 — Quartiles à partir d’effectifs cumulés
Série (notes sur 20) donnée en tableau :
Ici \(N=20\).
| Note \(x\) | Effectif \(n\) | Effectif cumulé |
|---|---|---|
| 6 | 3 | 3 |
| 8 | 5 | 8 |
| 10 | 7 | 15 |
| 12 | 4 | 19 |
| 15 | 1 | 20 |
- Seuil 25 % : \(0{,}25N=5\). On cherche la première valeur dont l’effectif cumulé \(\ge 5\). Ici, cumulé = 8 au niveau de \(x=8\) → \(\boxed{Q_1=8}\).
- Seuil 75 % : \(0{,}75N=15\). Première valeur avec cumulé \(\ge 15\) : cumulé = 15 au niveau de \(x=10\) → \(\boxed{Q_3=10}\).
- Écart interquartile : \(IQR=10-8=2\).
Résultats : \(\boxed{Q_1=8}\), \(\boxed{Q_3=10}\), \(\boxed{IQR=2}\).
7) Diagrammes : lequel choisir ? comment lire ?
Qualitatif
- Diagramme en secteurs : proportions (camembert).
- Diagramme en barres : comparaisons visuelles simples.
Angle d’un secteur : \(\displaystyle \theta = 360^\circ \times f\).
Quantitatif
- Diagramme en bâtons : valeurs discrètes (ex : nombre de livres).
- Histogramme : valeurs continues par classes (ex : tailles, durées).
Histogramme : si les classes n’ont pas la même largeur, “hauteur” seule peut tromper.
La lecture correcte passe par l’idée d’aire (niveau lycée).
Exemple 5 — Secteurs : calculer un angle
Dans un sondage, 42 % des élèves choisissent “vélo”.
- Fréquence \(f=0{,}42\).
- \(\theta = 360^\circ \times 0{,}42 = 151{,}2^\circ\).
Angle du secteur : \(\boxed{151{,}2^\circ}\).
Exemple 6 — Lecture : “la moitié”, “un quart”
Si \(Q_3=10\), cela signifie : au moins 75 % des notes sont \(\le 10\). Donc au plus 25 % des notes sont \(>10\).
Attention : “75 % \(\le 10\)” n’implique pas “la moyenne vaut 10”.
8) Échantillon, représentativité, biais
Définitions
- Population : ensemble complet (souvent trop grand).
- Échantillon : sous-ensemble observé (taille \(n\)).
- Paramètre (population) : valeur “vraie” inconnue (ex : proportion réelle).
- Statistique (échantillon) : valeur calculée sur l’échantillon (ex : fréquence observée).
Représentativité
Un échantillon est dit “représentatif” s’il ressemble à la population (mêmes types d’individus, pas de sélection cachée).
Biais : erreur systématique due à la méthode de collecte (ex : sondage seulement le matin → certains profils absents).
Exemple 7 — Deux échantillons, lequel est le moins biaisé ?
On veut estimer la proportion d’élèves qui viennent au lycée à vélo.
- A : on interroge uniquement les élèves du club cyclisme.
- B : on tire au hasard 80 élèves parmi tous les élèves du lycée.
B est clairement le moins biaisé : tirage au hasard dans la population ciblée.
9) Estimation simple d’une proportion
Principe (niveau 2nde)
Si, dans un échantillon de taille \(n\), on observe \(k\) “succès” (ex : “oui”, “vélo”), alors
\[
\hat{p}=\frac{k}{n}
\]
est une estimation de la proportion \(p\) dans la population.
Idée de variabilité
Si on refait l’échantillon, \(\hat{p}\) change : il y a une fluctuation d’échantillonnage.
Plus \(n\) est grand, plus l’estimation est stable (en général).
Exemple 8 — Estimer et interpréter (avec une phrase)
Dans un échantillon de \(n=200\) élèves, \(k=56\) disent “je viens à vélo”.
- \(\hat{p}=\frac{56}{200}=0{,}28\), soit \(28\%\).
Interprétation : “On estime que environ 28 % des élèves du lycée viennent à vélo.”
Exemple 9 — Même proportion, deux tailles : lequel est plus fiable ?
Deux sondages donnent \(\hat{p}=0{,}28\) :
- Sondage 1 : \(n=50\), \(k=14\).
- Sondage 2 : \(n=500\), \(k=140\).
Le sondage 2 est beaucoup plus stable : avec \(n\) grand, la fluctuation d’échantillonnage est généralement plus faible.
Bon sens statistique (ce qu’on attend à l’écrit)
- Je cite population + taille \(n\) + méthode (tirage au hasard ?).
- Je donne une phrase d’interprétation (pas juste un nombre).
- Je signale un biais évident (si présent) : “échantillon non représentatif”.
10) Mini-formulaire (à connaître)
Tableaux & fréquences
\[
N=\sum n_i
\qquad
f_i=\frac{n_i}{N}
\qquad
\%_i=100f_i
\]
\[
N_k=\sum_{i\le k} n_i
\qquad
F_k=\sum_{i\le k} f_i
\]
Indicateurs
\[
\bar{x}=\frac{\sum (n_i x_i)}{N}
\]
Médiane : “50 % \(\le m\)” (sur liste ordonnée).
Quartiles : “25 % \(\le Q_1\)” et “75 % \(\le Q_3\)” (via cumulés).
Étendue : \(\max-\min\) \quad IQR : \(Q_3-Q_1\)
Quartiles : “25 % \(\le Q_1\)” et “75 % \(\le Q_3\)” (via cumulés).
Étendue : \(\max-\min\) \quad IQR : \(Q_3-Q_1\)
Échantillonnage
\[
\hat{p}=\frac{k}{n}
\]
avec \(n\) = taille de l’échantillon, \(k\) = nombre de “succès”.
Checklist “copie parfaite”
- Je précise population, variable (qualitative/quantitative) et taille \(N\) ou \(n\).
- Je construis un tableau : effectifs \(n_i\), fréquences \(f_i\), et cumulés si besoin.
- Je calcule correctement : moyenne \(\bar{x}\) (pondérée), médiane (liste triée), quartiles (cumulés).
- Je choisis le bon diagramme et je l’interprète en phrase.
- En échantillonnage, je vérifie la représentativité et je repère les biais.
- Estimation : \(\hat{p}=\frac{k}{n}\) + phrase “on estime environ … %”.
Rappel : notation FR : intervalles \([a ; b]\) (et pas \([a, b]\)).