Statistiques et échantillonnage | Cours — 2nde Maths | Learna

Cours — Statistiques et échantillonnage

Effectifs/fréquences • moyenne • médiane • quartiles • diagrammes • échantillon • estimation simple (proportion).

Objectifs Vocabulaire Effectifs & fréquences Moyenne Médiane Quartiles Diagrammes Échantillon Estimation simple Formulaire

1) Objectifs et réflexes

Compétences attendues (2nde)

Construire et lire un tableau d’effectifs et de fréquences (et fréquences cumulées).
Calculer une moyenne (simple ou pondérée par les effectifs).
Déterminer médiane et quartiles à partir d’une liste ordonnée (ou effectifs cumulés).
Choisir un diagramme adapté (bâtons, secteurs, histogramme) et interpréter.
Comprendre échantillon, population, représentativité et biais.
Faire une estimation simple d’une proportion à partir d’un échantillon (lecture + bon sens).

Pièges fréquents (très importants)

Oublier de trier la série avant de chercher médiane/quartiles.
Confondre moyenne et médiane (la moyenne “bouge” beaucoup avec des valeurs extrêmes).
Histogramme : classes → attention aux largeurs (et donc à la lecture visuelle).
Fréquence ≠ pourcentage : \(\text{pourcentage} = 100\times \text{fréquence}\).
Un échantillon “facile” (réseaux sociaux, même classe…) peut être très biaisé.

Réflexe méthode : (1) je définis la population et la variable, (2) je fais un tableau clair, (3) je calcule les indicateurs, (4) j’interprète avec une phrase.

2) Vocabulaire de base

Population, individu, variable

Population : ensemble étudié (ex : tous les élèves de 2nde d’un lycée).
Individu : un élément de la population (ex : un élève).
Variable : ce qu’on mesure/observe :
- qualitative (couleur, catégorie…)
- quantitative (taille, note, durée…)

Modalités, effectif, fréquence

Modalité : valeur (ou classe de valeurs) prise par la variable.
Effectif d’une modalité : nombre d’individus qui la prennent.
Effectif total : \(N\).
Fréquence : \(\displaystyle f=\frac{\text{effectif}}{N}\) (entre 0 et 1).
Pourcentage : \(100f\ \%\).

Série statistique (écriture)

Une série peut être donnée :

en liste brute : \(x_1,x_2,\dots,x_N\)
en tableau : modalités \(x_i\) + effectifs \(n_i\)
en classes : intervalles (ex : \([10 ; 12[,\ [12 ; 14[\dots\)) + effectifs

3) Effectifs, fréquences et cumulés

Formules

\[ N=\sum n_i \qquad f_i=\frac{n_i}{N} \qquad \%_i = 100 f_i \] \[ \text{effectif cumulé}:\ N_k=\sum_{i\le k} n_i \qquad \text{fréquence cumulée}:\ F_k=\sum_{i\le k} f_i \]

Interprétation

Une fréquence cumulée \(F_k\) se lit : “proportion d’individus ayant une valeur \(\le x_k\)” (ou dans les classes jusqu’à \(k\)).
On vérifie toujours : \(\sum f_i = 1\) (à l’arrondi près).

Exemple 1 — Tableau complet (effectifs, fréquences, cumulés)

Une classe de 30 élèves : nombre de livres lus le mois dernier (variable quantitative discrète).

Livres \(x_i\)	Effectif \(n_i\)	Fréquence \(f_i=\frac{n_i}{30}\)	Effectif cumulé \(N_i\)	Fréquence cumulée \(F_i\)
0	6	\(\frac{6}{30}=0{,}20\)	6	0,20
1	10	\(\frac{10}{30}=0{,}333\dots\)	16	0,533…
2	8	\(\frac{8}{30}=0{,}266\dots\)	24	0,80
3	4	\(\frac{4}{30}=0{,}133\dots\)	28	0,933…
4	2	\(\frac{2}{30}=0{,}066\dots\)	30	1

Lecture : \(F(2)=0{,}80\) signifie “80 % des élèves ont lu au plus 2 livres”.

4) Moyenne (simple / pondérée)

Définition

Si la série est donnée en tableau \((x_i, n_i)\) : \[ \bar{x}=\frac{\sum (n_i x_i)}{\sum n_i}=\frac{\sum (n_i x_i)}{N}. \] En liste brute : \(\displaystyle \bar{x}=\frac{x_1+\cdots+x_N}{N}\).

Sens et robustesse

La moyenne “résume” par un point d’équilibre, mais elle est sensible aux valeurs extrêmes.
Si une valeur énorme apparaît, la moyenne peut être trompeuse.

Piège : ne pas oublier de multiplier \(x_i\) par l’effectif \(n_i\).

Exemple 2 — Moyenne pondérée (calcul propre)

Notes (sur 20) d’un devoir : 8 élèves ont 12, 15 élèves ont 9, 5 élèves ont 18, 2 élèves ont 2.

Total : \(N=8+15+5+2=30\).
Somme pondérée : \(S=8\times 12+15\times 9+5\times 18+2\times 2\).
\(S=96+135+90+4=325\).
\(\displaystyle \bar{x}=\frac{325}{30}\approx 10{,}83\).

Conclusion : \(\boxed{\bar{x}\approx 10{,}83}\) (sur 20).

La valeur “2” tire la moyenne vers le bas : c’est un effet d’extrême.

5) Médiane

Définition (idée)

La médiane partage la série en deux “moitiés” :

au moins 50 % des valeurs sont \(\le m\)
au moins 50 % des valeurs sont \(\ge m\)

Méthode (liste ordonnée)

On trie la liste (croissante).

Si \(N\) est impair : médiane = valeur de rang \(\frac{N+1}{2}\).
Si \(N\) est pair : on prend souvent la moyenne des deux valeurs centrales (rang \(\frac{N}{2}\) et \(\frac{N}{2}+1\)).

Exemple 3 — Médiane sur liste (pair + piège)

Données (déjà triées) : \(2,\ 6,\ 7,\ 9,\ 10,\ 11,\ 12,\ 18\). Ici \(N=8\) (pair).

Valeurs centrales : rang 4 et 5 → \(9\) et \(10\).
\(\displaystyle m=\frac{9+10}{2}=9{,}5\).

Médiane : \(\boxed{m=9{,}5}\).

6) Quartiles \(Q_1\) et \(Q_3\) (et étendue / IQR)

Définition (niveau 2nde)

Pour une série ordonnée de taille \(N\) :

\(Q_1\) : une valeur telle qu’au moins 25 % des données sont \(\le Q_1\).
\(Q_3\) : une valeur telle qu’au moins 75 % des données sont \(\le Q_3\).

Pratique : on utilise les rangs via l’effectif cumulé.

Dispersion

Étendue : \(\max - \min\) (très sensible aux extrêmes).
Écart interquartile : \(IQR = Q_3 - Q_1\) (plus robuste).

Attention : selon les conventions (logiciels), les rangs peuvent varier. En 2nde, on suit la méthode “au moins 25 % / 75 %” via les cumulés.

Exemple 4 — Quartiles à partir d’effectifs cumulés

Série (notes sur 20) donnée en tableau :

Note \(x\)	Effectif \(n\)	Effectif cumulé
6	3	3
8	5	8
10	7	15
12	4	19
15	1	20

Ici \(N=20\).

Seuil 25 % : \(0{,}25N=5\). On cherche la première valeur dont l’effectif cumulé \(\ge 5\). Ici, cumulé = 8 au niveau de \(x=8\) → \(\boxed{Q_1=8}\).
Seuil 75 % : \(0{,}75N=15\). Première valeur avec cumulé \(\ge 15\) : cumulé = 15 au niveau de \(x=10\) → \(\boxed{Q_3=10}\).
Écart interquartile : \(IQR=10-8=2\).

Résultats : \(\boxed{Q_1=8}\), \(\boxed{Q_3=10}\), \(\boxed{IQR=2}\).

7) Diagrammes : lequel choisir ? comment lire ?

Qualitatif

Diagramme en secteurs : proportions (camembert).
Diagramme en barres : comparaisons visuelles simples.

Angle d’un secteur : \(\displaystyle \theta = 360^\circ \times f\).

Quantitatif

Diagramme en bâtons : valeurs discrètes (ex : nombre de livres).
Histogramme : valeurs continues par classes (ex : tailles, durées).

Histogramme : si les classes n’ont pas la même largeur, “hauteur” seule peut tromper. La lecture correcte passe par l’idée d’aire (niveau lycée).

Exemple 5 — Secteurs : calculer un angle

Dans un sondage, 42 % des élèves choisissent “vélo”.

Fréquence \(f=0{,}42\).
\(\theta = 360^\circ \times 0{,}42 = 151{,}2^\circ\).

Angle du secteur : \(\boxed{151{,}2^\circ}\).

Exemple 6 — Lecture : “la moitié”, “un quart”

Si \(Q_3=10\), cela signifie : au moins 75 % des notes sont \(\le 10\). Donc au plus 25 % des notes sont \(>10\).

Attention : “75 % \(\le 10\)” n’implique pas “la moyenne vaut 10”.

8) Échantillon, représentativité, biais

Définitions

Population : ensemble complet (souvent trop grand).
Échantillon : sous-ensemble observé (taille \(n\)).
Paramètre (population) : valeur “vraie” inconnue (ex : proportion réelle).
Statistique (échantillon) : valeur calculée sur l’échantillon (ex : fréquence observée).

Représentativité

Un échantillon est dit “représentatif” s’il ressemble à la population (mêmes types d’individus, pas de sélection cachée).

Biais : erreur systématique due à la méthode de collecte (ex : sondage seulement le matin → certains profils absents).

Exemple 7 — Deux échantillons, lequel est le moins biaisé ?

On veut estimer la proportion d’élèves qui viennent au lycée à vélo.

A : on interroge uniquement les élèves du club cyclisme.
B : on tire au hasard 80 élèves parmi tous les élèves du lycée.

B est clairement le moins biaisé : tirage au hasard dans la population ciblée.

9) Estimation simple d’une proportion

Principe (niveau 2nde)

Si, dans un échantillon de taille \(n\), on observe \(k\) “succès” (ex : “oui”, “vélo”), alors \[ \hat{p}=\frac{k}{n} \] est une estimation de la proportion \(p\) dans la population.

Idée de variabilité

Si on refait l’échantillon, \(\hat{p}\) change : il y a une fluctuation d’échantillonnage.

Plus \(n\) est grand, plus l’estimation est stable (en général).

Exemple 8 — Estimer et interpréter (avec une phrase)

Dans un échantillon de \(n=200\) élèves, \(k=56\) disent “je viens à vélo”.

\(\hat{p}=\frac{56}{200}=0{,}28\), soit \(28\%\).

Interprétation : “On estime que environ 28 % des élèves du lycée viennent à vélo.”

Exemple 9 — Même proportion, deux tailles : lequel est plus fiable ?

Deux sondages donnent \(\hat{p}=0{,}28\) :

Sondage 1 : \(n=50\), \(k=14\).
Sondage 2 : \(n=500\), \(k=140\).

Le sondage 2 est beaucoup plus stable : avec \(n\) grand, la fluctuation d’échantillonnage est généralement plus faible.

Bon sens statistique (ce qu’on attend à l’écrit)

Je cite population + taille \(n\) + méthode (tirage au hasard ?).
Je donne une phrase d’interprétation (pas juste un nombre).
Je signale un biais évident (si présent) : “échantillon non représentatif”.

10) Mini-formulaire (à connaître)

Tableaux & fréquences

\[ N=\sum n_i \qquad f_i=\frac{n_i}{N} \qquad \%_i=100f_i \] \[ N_k=\sum_{i\le k} n_i \qquad F_k=\sum_{i\le k} f_i \]

Indicateurs

\[ \bar{x}=\frac{\sum (n_i x_i)}{N} \] Médiane : “50 % \(\le m\)” (sur liste ordonnée).

Quartiles : “25 % \(\le Q_1\)” et “75 % \(\le Q_3\)” (via cumulés).

Étendue : \(\max-\min\) \quad IQR : \(Q_3-Q_1\)

Échantillonnage

\[ \hat{p}=\frac{k}{n} \] avec \(n\) = taille de l’échantillon, \(k\) = nombre de “succès”.

Checklist “copie parfaite”

Je précise population, variable (qualitative/quantitative) et taille \(N\) ou \(n\).
Je construis un tableau : effectifs \(n_i\), fréquences \(f_i\), et cumulés si besoin.
Je calcule correctement : moyenne \(\bar{x}\) (pondérée), médiane (liste triée), quartiles (cumulés).
Je choisis le bon diagramme et je l’interprète en phrase.
En échantillonnage, je vérifie la représentativité et je repère les biais.
Estimation : \(\hat{p}=\frac{k}{n}\) + phrase “on estime environ … %”.

Rappel : notation FR : intervalles \([a ; b]\) (et pas \([a, b]\)).