2nd – Cours – Statistiques

Statistiques

I Révisions (Vocabulaire)

Dans notre société, de nombreuses données sont collectées. Elles peuvent concerner par exemple des objets (taille, poids, qualité,…), des végétaux (taille, nombre de pétales, rendement,…), des animaux (nombre d’individus, poids,…), …

Ce qu’on étudie dans une population d’individus donnés (au sens large) s’appelle un caractère.

Définition 1 : On appelle série statistique d’un caractère un ensemble de données relevées concernant ce caractère.

L’effectif d’une valeur du caractère correspond au nombre de fois que l’on rencontre cette valeur dans la série de statistique étudiée.

L’effectif total d’une série statistique correspond au nombre total d’individus présents dans la population étudiée.

 Définition 2 : On appelle fréquence, souvent notée $f$, d’une valeur du caractère le quotient de l’effectif de la valeur sur l’effectif total.

$$ f= \dfrac{\text{effectif de la valeur}}{\text{effectif total}}$$

Exemple : Voici les notes relevées lors d’une interrogation dans une classe.
$$\begin{array}{|l|c|c|c|c|c|c|}
\hline
\text{Note} & \phantom{1}8 & 10 & 12 & 15 & 16 & 20 \\
\hline
\text{Effectif} & 4 & 8 & 10 & 5 & 2 & 1\\
\hline
\end{array}$$
L’effectif total est : $ 4 + 8 + 10 + 5 + 2 + 1 = 30$

La fréquence de la note $8$ est $\dfrac{4}{30} = \dfrac{2}{15}$

On obtient ainsi le tableau suivant :
$$\begin{array}{|l|c|c|c|c|c|c|}
\hline
\text{Note} & \phantom{1}8 & 10 & 12 & 15 & 16 & 20 \\
\hline
\text{Effectif} & 4 & 8 & 10 & 5 & 2 & 1\\
\hline
\text{Fréquence} & \dfrac{2}{15} & \dfrac{4}{15} & \dfrac{1}{3} & \dfrac{1}{6} & \dfrac{1}{15} & \dfrac{1}{30} \\\\
\hline
\end{array}$$

$\quad$

Effectifs cumulés croissants et décroissants

Définition : L’effectif cumulé croissant (respectivement décroissant) d’une valeur est la somme des effectifs dont le caractère étudié à une valeur inférieure (respectivement supérieure) ou égale à la valeur.

La fréquence cumulée croissante (respectivement décroissante) correspond au quotient de l’effectif cumulé croissant (respectivement décroissant) sur l’effectif total.

Remarque : On peut aussi calculer les fréquences cumulées à l’aide de la somme des fréquences.

Exemple : En reprenant le tableau de l’exemple précédent, on obtient ce nouveau tableau :

$$\begin{array}{|l|c|c|c|c|c|c|}
\hline
\text{Note} & \phantom{1}8 & 10 & 12 & 15 & 16 & 20 \\
\hline
\text{Effectif} & 4 & 8 & \color{red}{10} & 5 & 2 & 1\\
\hline
\begin{array}{l}\text{Effectif} \\ \text{cumulé} \\ \text{croissant} \end{array} & 4 & \color{red}{12} & \color{red}{22} & 27 & 29 & 30 \\
\hline
\end{array}$$

Pour obtenir l’effectif cumulé croissant de la note $12$, il suffit de faire le calcul : $12 + 10 = 22$.
Cet effectif cumulé croissant signifie que $22$ élèves ont obtenu une note inférieure ou égale à $12$.

$$\begin{array}{|l|c|c|c|c|c|c|}
\hline
\text{Note} & \phantom{1}8 & 10 & 12 & 15 & 16 & 20 \\
\hline
\text{Effectif} & 4 & 8 & \color{red}{10} & 5 & 2 & 1\\
\hline
\begin{array}{l}\text{Effectif} \\ \text{cumulé} \\ \text{décroissant} \end{array} & 30 & 26 & \color{red}{18} & \color{red}{8} & 3 & 1 \\
\hline
\end{array}$$

Pour obtenir l’effectif cumulé décroissant de la note $12$, il suffit de faire le calcul $ 8 + 10 = 18$.
Cet effectif cumulé décroissant signifie que $18$ élèves ont obtenu une note supérieure ou égale à $12$.

On obtient également les tableaux de fréquences cumulées suivants :

$$\begin{array}{|l|c|c|c|c|c|c|}
\hline
\text{Note} & \phantom{1}8 & 10 & 12 & 15 & 16 & 20 \\
\hline
\text{Effectif} & 4 & 8 & \color{red}{10} & 5 & 2 & 1\\
\hline
\begin{array}{l}\text{Effectifs} \\ \text{cumulés} \\ \text{croissant} \end{array} & 4 & \color{red}{12} & \color{red}{22} & 27 & 29 & 30 \\
\hline
\begin{array}{l}\text{Fréquence} \\ \text{cumulée} \\ \text{croissante} \end{array} & \dfrac{4}{30} & \dfrac{12}{30} & \color{red}{\dfrac{22}{30}} & \dfrac{27}{30} & \dfrac{29}{30} & 1 \\
\hline
\end{array}$$

On obtient ainsi le tableau suivant :
$$\begin{array}{|l|c|c|c|c|c|c|}
\hline
\text{Note} & \phantom{1}8 & 10 & 12 & 15 & 16 & 20 \\
\hline
\text{Effectif} & 4 & 8 & 10 & 5 & 2 & 1\\
\hline
\text{Fréquence} & \dfrac{4}{30} & \dfrac{8}{30} & \color{red}{\dfrac{10}{30}} & \dfrac{5}{30} & \dfrac{2}{30} & \dfrac{1}{30} \\\\
\hline
\begin{array}{l}\text{Fréquence} \\ \text{cumulée} \\ \text{décroissante} \end{array} & 1 & \dfrac{26}{30} & \color{red}{\dfrac{18}{30}} & \color{red}{\dfrac{8}{30}} & \dfrac{3}{30} & \dfrac{1}{30} \\
\hline
\end{array}$$

Quand on détermine les fréquences cumulées à partir du tableau des fréquences, il est plus facile d’utiliser des fractions non simplifiées. Le calcul des cumuls se fait de la même manière que pour les effectifs : $ \dfrac{8}{30} + \dfrac{10}{30} = \dfrac{18}{30}$.

[collapse]

$\quad$

 Propriété 1 : La somme des fréquences est toujours égale à $1$.

$\quad$

II Moyenne

 Définition 3 : On considère une série statistique dont les valeurs du caractère étudié sont $x_1$, $x_2$, $\ldots$, $x_p$ pour lesquels les effectifs respectifs sont $n_1$, $n_1$, $\ldots$, $n_p$.
La moyenne de cette série statistique, notée $\overline{x}$, est :
$$\overline{x} = \dfrac{n_1x_1 + n_2x_2+\ldots + x_pn_p}{n_1 + n_2 + \ldots + n_p}$$

Exemple : En reprenant le tableau de l’exemple précédent
$$\begin{array}{|l|c|c|c|c|c|c|}
\hline
\text{Note} & \phantom{1}8 & 10 & 12 & 15 & 16 & 20 \\
\hline
\text{Effectif} & 4 & 8 & 10 & 5 & 2 & 1\\
\hline
\end{array}$$
la moyenne est $$\begin{align*} \overline{x} &= \dfrac{8 \times 4 + 10 \times 8 + \ldots + 20 \times 1}{4 + 8 + \ldots + 1} \\\\
&= \dfrac{359}{30}
\end{align*}$$

Propriété 2 : Si on appelle $f_i$ la fréquence associée à la valeur $x_i$ alors on a : $$\overline{x} = f_1x_1 + f_2x_2 + \ldots + f_px_p.$$

$\quad$

Exemple : Si on reprend le tableau des fréquences précédent on a :

$$\begin{array}{|l|c|c|c|c|c|c|}
\hline
\text{Note} & 8 & 10 & 12 & 15 & 16 & 20 \\
\hline
\text{Fréquence} \phantom{\dfrac{\dfrac{1}{2}}{\dfrac{4}{5}}} & \dfrac{2}{15} & \dfrac{4}{15} & \dfrac{1}{3} & \dfrac{1}{6} & \dfrac{1}{15} & \dfrac{1}{30} \\
\hline
\end{array}$$

Ainsi $\conj{x}=\dfrac{2}{15}\times 8+\dfrac{4}{15}\times 10 + \ldots + \dfrac{1}{30}\times 20=\dfrac{359}{30}$

$\quad$

Propriété 3(Linéarité) : On considère une série statistiques $x_1,x_2,\ldots,x_p$, d’effectifs respectifs $n_1$, $n_1$, $\ldots$, $n_p$ et de moyenne $\conj{x}$ et deux nombres réels $a$ et $b$.
La série statistiques $ax_1+b$, $ax_2+b$, $\ldots$, $ax_p+b$ a pour moyenne $a\conj{x}+b$.

$\quad$

Exemple : Dans une entreprise le salaire moyen des employés est de $\np{1800}$ €. Si tous les salaires augmentent de $2\%$ alors le nouveau salaire moyen sera de $1~800\times 1,02=1~836$ €. Dans cet exemple $a=1,02$ et $b=0$.

$\quad$

Preuve Propriété 3

On appelle $m$ la moyenne de la série statistiques $ax_1+b$, $ax_2+b$, $\ldots$, $ax_p+b$.

Ainsi
$\begin{align*}
m&=\dfrac{n_1\left(ax_1+b\right)+n_2\left(x_2+b\right)+\ldots+n_p\left(ax_p+b\right)}{n_1+n_2+\ldots+n_p} \\
&=\dfrac{an_1x_1+an_2x_2+\ldots+an_px_p+n_1b+n_2b+\ldots n_pb}{n_1+n_2+\ldots+n_p} \\
&=\dfrac{a\left(n_1x_1+n_2x_2+\ldots+n_px_p\right)+b\left(n_1+n_2+\ldots+n_p\right)}{n_1+n_2+\ldots+n_p}\\
&=a\times \dfrac{x_1+x_2+\ldots+x_p}{n_1+n_2+\ldots+n_p}+b \\
&=a\conj{x}+b
\end{align*}$

$\quad$

[collapse]

$\quad$

Les données sont parfois fournies sous forme de classes. Cela permet d’avoir un tableau plus synthétique (intéressant quand on a beaucoup de valeurs) mais en contrepartie on perd en précision.

Exemple : On considère la série statistique suivante :
$$\begin{array}{|l|c|c|c|c|}
\hline
\text{Classe de notes} & ]8;10] & ]10;12] & ]12;14] & ]14;16] \\
\hline
\text{Effectif} & 4 & 14 & 10 & 8\\
\hline
\end{array}$$

Cela signifie donc que $4$ élèves ont des notes appartenant à l’intervalle $]8;10]$, $12$ élèves ont des notes appartenant à l’intervalle $]10;12]$, etc.

Pour pouvoir calculer une valeur approchée de la moyenne, on va faire apparaître le centre de chacune des classes, c’est-à-dire le milieu des intervalles.
$$\begin{array}{|l|c|c|c|c|}
\hline
\text{Classe de notes} & ]8;10] & ]10;12] & ]12;14] & ]14;16] \\
\hline
\text{Centre}& 9 & 11 & 13 & 15 \\
\hline
\text{Effectif} & 4 & 14 & 10 & 8\\
\hline
\end{array}$$

Ainsi :
$\begin{align*} \overline{x} &\approx \dfrac{9 \times 4 + 11 \times 14 + 13 \times 10 + 15 \times 8}{4 + 14 + 10 + 8} \\\\
& \approx \dfrac{440}{36}
\end{align*}$
$\quad$

$\quad$

III Médiane

 Définition 4 : On appelle médiane, souvent notée $M_e$, d’une série statistique la valeur qui sépare la série en deux séries de même effectif.
Cela signifie donc que $50\%$ des valeurs de la série ont une valeur inférieure ou égale à $M_e$ et $50\%$ des valeurs de la série ont une valeur supérieure ou égale à $M_e$.

$\quad$

Remarque 1 : Pour pouvoir déterminer la médiane d’une série, il faut avant toute chose, ranger les valeurs dans l’ordre croissant.

Remarque 2 : La médiane n’appartient pas nécessairement à la série statistique initiale.

Exemple 1 : (effectif total pair) On considère la série statistique suivante (qui a été rangée dans le bon ordre préalablement) :
$$ 5 – 8 – 9 – 9 – 10 – 11 – 13 – 15$$
Cette série comporte $8$ valeurs. $\dfrac{8}{2}  =4$. On va donc pouvoir constituer deux séries de $4$ valeurs.
La première $ 5-8-9-\color{red}{9}$ et la seconde $ \color{red}{10}-11-13-15$.
La médiane est alors la moyenne de la $4^{\text{ème}}$ (la dernière valeur de la première série) et de la $5^{\text{ème}}$ (la première valeur de la seconde série) valeur.
Ainsi $M_e = \dfrac{9 + 10}{2} = 9,5$.

$\quad$

Exemple 2 : (effectif total impair) On considère la série statistique suivante (qui a été dans le bon ordre préalablement) :
$$4-6-7-9-10-12-13$$
Cette série comporte $7$ valeur. $\dfrac{7}{2} = 3,5$. On va donc pouvoir constituer deux séries de $3$ valeurs :
$$\left[4-6-7\right]-\color{red}{9}-\left[10-12-13\right]$$
La médiane est donc $9$.

Remarque : La moyenne et la médiane sont des indicateurs de position de la série.

$\quad$

IV Quartiles et étendue

 Définition 5 : On considère une série statistique rangée dans l’ordre croissant.
On appelle premier quartile de cette série, noté $Q_1$, la plus petite valeur de la série telle qu’au moins $25\%$ des données soient inférieures ou égales à $Q_1$.
On appelle troisième quartile de cette série, noté $Q_3$, la plus petite valeur de la série telle qu’au moins $75\%$ des données soient inférieures ou égales à $Q_3$.

$\quad$

Remarque : Comme l’indique leur définition, $Q_1$ et $Q_3$ appartiennent nécessairement à la série étudiée.

Exemple 1 : On considère la série suivante :
$$ 4-8-9-11-12-13-14-16-17$$
Cette série contient $9$ valeurs.
$\dfrac{9}{4} = 2,25$. Par conséquent $Q_1$ sera la troisième valeur de la série, soit $Q_1 = 9$.
$\dfrac{9 \times 3}{4} = 6,75$. Par conséquent $Q_3$ sera la septième valeur de la série, soit $Q_3 = 14$.

Exemple 2 : On considère la série suivante :
$$ 1-3-4-5-9-12-14-16$$
Cette série contient $8$ valeurs.
$\dfrac{8}{4} = 2$. Par conséquent $Q_1$ sera la deuxième valeur de la série, c’est-à-dire $Q_1 = 3$.
$\dfrac{8 \times 3}{4} = 6$. Par conséquent $Q_3$ sera la sixième valeur de la série, c’est-à-dire $Q_3 = 12$.

$\quad$

 Définition 6 : On appelle écart inter-quartile d’une série statistique la différence $Q_3-Q_1$.

$\quad$

Dans le dernier exemple, l’écart inter-quartile vaut $12 – 3 = 9$.

$\quad$

 Définition 7 : On appelle étendue d’une série statistique, la différence entre la plus grande et la plus petite valeur de la série.

$\quad$

Ainsi, en reprenant la dernière série, l’étendue vaut $16-1 = 15$.

On résume souvent une série statistique à l’aide d’un diagramme en boîte (ou boîte à moustaches) sur lequel figurent :

  • le minimum
  • $Q_1$
  • la médiane
  • $Q_3$
  • le maximum

Exemple :

2nd - cours - statistiques - fig1

Remarque : Les quartiles et étendue sont des indicateurs de dispersion de la série.

$\quad$

V Écart-type

Définition 8 : On considère une série statistiques $x_1,x_2,\ldots,x_p$, d’effectifs respectifs $n_1$, $n_1$, $\ldots$, $n_p$ et de moyenne $\conj{x}$.
On appelle écart-type de la série le nombre : $$\sigma = \sqrt{\dfrac{n_1\left(x_1-\conj{x}\right)+n_2\left(x_2-\conj{x}\right)+\ldots+n_p\left(x_p-\conj{x}\right)}{n_1+n_2+\ldots+n_p}}$$

$\quad$

Remarque : Le nombre $\sigma$ se lit « sigma ».

Exemple : Un radar de vitesse est installé dans une rue d’une ville. Voici $50$ mesures (en km/h) relevées.
$$\begin{array}{|c|c|c|c|c|c|c|}
\hline
\text{vitesse} &47&48& 49& 50& 51& 52\\
\hline
\text{effectif}&4& 5& 13& 15& 7& 6\\
\hline
\end{array}$$

La vitesse moyenne est
$\begin{align*}\conj{x}&=\dfrac{4\times 47+5\times 48+13\times 49+15\times 50+7\times 51+6\times 52}{50}\\
&=49,68\end{align*}$

L’écart-type de cette série est : $\begin{align*}\sigma&=\sqrt{\small{\dfrac{4(47-49,68)^2+5(48-49,68)^2+13(49-49,68)^2+15(50-49,68)^2+7(51-49,68)^2+6(52-49,68)^2}{50}} }\\
&\approx 1,38\end{align*}$

Cela signifie, qu’en moyenne, les vitesses relevées s’écartaient de $1,38$ km/h de la vitesse moyenne.

$\quad$

Remarques :

  • Plus l’écart-type est grand, plus les valeurs sont dispersées autour de la moyenne.
  • L’écart-type est exprimé dans la même unité que les valeurs.

$\quad$