TS – Cours – Intervalles de fluctuation et estimation

Intervalles de fluctuation et estimation

I Intervalle de fluctuation

Dans toute cette partie on appellera $n$ la taille de l’échantillon choisi et $p$ la proportion dans la population d’un caractère étudié.
On supposera que $n \pg 30$, $np\pg 5$ et $n(1-p) \pg 5$.

1. Dans quel but ?

Lorsqu’on répète plusieurs fois une expérience aléatoire et qu’on s’intéresse à la fréquence d’apparition d’un événement, on constate que cette fréquence varie au cours des expérimentations. On souhaite donc déterminer un intervalle auquel doivent appartenir ces différentes fréquences pour un seuil donné (c’est-à-dire en s’octroyant une petite marge d’erreur nécessaire). Nous allons chercher dans cette partie un type d’intervalle, qu’on appellera intervalle de fluctuation asymptotique au seuil de $\boldsymbol{x\%}$ qui possédera les propriétés suivantes :

  1. il doit être centré autour de la probabilité théorique $p$ associée à la fréquence calculée.
  2. sa longueur doit diminuer quand le nombre d’expériences $n$ augmente

Deux cas vont alors se présenter à nous :

  • On connaît la valeur de $p$ et l’intervalle trouvé permet de trouver des échantillons défectueux;
  • On ne connaît pas la valeur de $p$ mais on fait une hypothèse sur sa valeur et l’intervalle obtenu ainsi que la fréquence d’apparition observée, permettront de valider ou de rejeter l’hypothèse faite.

2. Intervalle de fluctuation asymptotique

On va supposer dans cette partie la probabilité $p$ du caractère étudié est connue.

 Définition 1 : On considère un réel $p \in [0;1]$, un entier naturel $n$ et une variable aléatoire $X_n$ suivant la loi binomiale $\mathscr{B}(n;p)$.

On s’intéresse à la variable aléatoire $F_n = \dfrac{X_n}{n}$. Il s’agit de la variable aléatoire fréquence de succès pour le schéma de Bernoulli de paramètres $n$ et $p$.

$\quad$

 Définition 2 : On considère un réel $\alpha$ appartenant à l’intervalle $]0;1[$. On dit qu’un intervalle $I_n$ est un intervalle de fluctuation asymptotique de la variable aléatoire $F_n$, déterminée précédemment, au seuil $1-\alpha$ si $F_n$ appartient à $I_n$ avec une probabilité d’autant plus proche de $1-\alpha$ que $n$ est grand.

$\quad$

Remarques :

  • Pour un seuil donné, il existe plusieurs intervalles de fluctuation asymptotique.
  • La probabilité $P(F_n \in I_n)$ n’est pas nécessairement égale à $1-\alpha$ mais elle s’en rapproche quand la taille $n$ de l’échantillon devient de plus en plus grande.
 Propriété 1 : On considère un réel $\alpha \in ]0;1[$, un entier naturel $n$, un réel $p\in [0;1]$ et une variable aléatoire $X_n$ suivant la loi binomiale $\mathscr{B}(n;p)$.
On note $I_n = \left[ p – u_\alpha \dfrac{\sqrt{p(1-p)}}{\sqrt{n}};p + u_\alpha \dfrac{\sqrt{p(1-p)}}{\sqrt{n}} \right]$.
On a alors $\lim\limits_{n \rightarrow +\infty} P(F_n \in I_n) = 1-\alpha$.

Cela signifie donc que la probabilité que la fréquence $F_n$ prenne ses valeurs dans l’intervalle $I_n$ se rapproche de $1-\alpha$ quand la taille de l’échantillon $n$ devient grande.

Remarque : On dit alors que $I_n$ est un intervalle de fluctuation asymptotique de la fréquence $F_n$ au seuil $1-\alpha$.

Preuve Propriété 1

$X_n$ suit la loi binomiale $\mathscr{B}(n;p)$ donc, d’après le théorème de Moivre-Laplace, la variable aléatoire $Z_n = \dfrac{X_n-E(X_n)}{\sigma(X_n)}$ tend, vers une variable aléatoire $Z$ suivant la loi normale centrée réduite $\mathscr{N}(0;1)$.

Cela signifie que, pour tous réels $a$ et $b$ tels que $a<b$ on a :
$\lim\limits_{n \rightarrow +\infty} P(a \le Z_n \le b) = \displaystyle \int_a^b {\dfrac{1}{\sqrt{2\pi}}\e^{-x^2/2}\dx}$.

Or

$\begin{align*} Z_n &= \dfrac{X_n – E(X_n)}{\sigma(X_n)} \\
&=\dfrac{X_n – np}{\sqrt{np(1-p)}} \\
&=\dfrac{n\left(\dfrac{X_n}{n}-p \right)}{n\dfrac{\sqrt{p(1-p)}}{\sqrt{n}}}\\
&=\dfrac{F_n-p}{\dfrac{\sqrt{p(1-p)}}{\sqrt{n}}}\end{align*}$

Par conséquent $\lim\limits_{n \rightarrow +\infty} P\left(p+a\dfrac{\sqrt{p(1-p)}}{\sqrt{n}} \pp F_n \pp p+b\dfrac{\sqrt{p(1-p)}}{\sqrt{n}} \right)$ $ = \displaystyle \int_a^b {\dfrac{1}{\sqrt{2\pi}}\e^{-x^2/2}\dx}$

Or, d’après une propriété vue dans le chapitre sur les lois de probabilité à densité, pour tout réel $\alpha \in ]0;1[$, si $X$ suit la loi normale centrée réduite, il existe un unique réel positif $u_\alpha$ tel que $P(-u_\alpha \le X \le u_\alpha) = 1-\alpha$.

On a donc $\displaystyle \int_{-u_\alpha}^{u_\alpha} \dfrac{1}{\sqrt{2\pi}}\e^{-x^2/2}\dx= 1-\alpha$.
En prenant $a=-u_\alpha$ et $b=u_\alpha$, on a
$$\lim\limits_{n\rightarrow + \infty}P\left(p-u_\alpha \dfrac{\sqrt{p(1-p)}}{\sqrt{n}} \pp F_n \pp p+u_\alpha \dfrac{\sqrt{p(1-p)}}{\sqrt{n}} \right) = 1-\alpha$$

[collapse]

$\quad$

Exemple : On lance $70$ fois une pièce truquée pour laquelle la probabilité d’obtenir Face est $p=0,7$.
On appelle $X_{70}$ la variable aléatoire comptant le nombre de fois où on obtient Face.
Par conséquent $X_{70}$ suit la loi binomiale $\mathscr{B}(70;0,7)$.
Si on prend $\alpha = 0,05$ alors, $u_{0,05} = 1,96$ d’après le cours sur la loi normale centrée réduite.
Un intervalle de fluctuation asymptotique au seuil de $95\%$ est :
$\begin{align*} I_{70} &= \left[ 0,7-1,96 \times \dfrac{\sqrt{0,7 \times 0,3}}{\sqrt{70}}; 0,7 + 1,96 \times \dfrac{\sqrt{0,7 \times 0,3}}{\sqrt{70}} \right] \\
& \approx [0,592;0,808]
\end{align*}$

On arrondit par défaut pour la borne inférieure et par excès pour la borne supérieure afin de s’assurer d’avoir une probabilité d’au moins $1-\alpha$.

Avec $70$ lancers, la fréquence d’apparition de l’événement “Face” appartient donc à l’intervalle $[0,592;0,808]$ avec une probabilité de $0,95$.
Si on effectue plus de lancer l’intervalle de fluctuation asymptotique, pour le même seuil, se resserre.

 Propriété 2: Un intervalle de fluctuation asymptotique au seuil de confiance $95\%$ de la fréquence $F_n$ d’un caractère dans un échantillon de taille $n$ est donné par :
$$I_{n} = \left[ p-1,96 \times \dfrac{\sqrt{p(1-p)}}{\sqrt{n}}; p + 1,96 \times \dfrac{\sqrt{p(1-p)}}{\sqrt{n}} \right]$$

$\quad$

Remarques :

  • On avait défini en seconde un intervalle de fluctuation du type $\left[p – \dfrac{1}{\sqrt{n}};p+\dfrac{1}{\sqrt{n}}\right]$. Il contient l’intervalle de fluctuation asymptotique au seuil de $95\%$ défini en TS.
  • L’intervalle de fluctuation asymptotique au seuil de $95\%$ défini par cette propriété est centré sur la proportion $p$ ce qui n’est pas nécessairement le cas pour l’intervalle de fluctuation déterminé en classe $1^{\text{ière}}$ à l’aide de la loi binomiale.
 Propriété 3 : Un intervalle de fluctuation asymptotique au seuil de confiance $99\%$ de la fréquence $F_n$ d’un caractère dans un échantillon de taille $n$ est donné par :
$$I_{n} = \left[ p-2,58 \times \dfrac{\sqrt{p(1-p)}}{\sqrt{n}}; p + 2,58 \times \dfrac{\sqrt{p(1-p)}}{\sqrt{n}} \right]$$

$\quad$


$\quad$

3. Prise de décision

On va supposer dans cette partie que la proportion du caractère étudié n’est pas connue et on va émettre l’hypothèse qu’elle vaut $p$. On va essayer de déterminer si on peut valider ou rejeter l’hypothèse faite.

Propriété 4 (Règle de décision) : On fait l’hypothèse que la proportion d’un caractère donné dans la population est égale à $p$. Dans un échantillon de taille $n$ on appelle $f$ la fréquence observée du caractère étudié dans cet échantillon et $I_n$ un intervalle de fluctuation asymptotique au seuil de $95\%$.

  1. Si $f \in I_n$ alors on accepte l’hypothèse faite sur la proportion $p$
  2. Si $f \notin I_n$alors on rejette l’hypothèse faite sur la proportion $p$ au risque de $5\%$.

$\quad$

Remarques :

  • Le risque de rejeter à tord l’hypothèse faite sur $p$ sachant qu’elle est vraie est approximativement égale à $5\%$.
  • Si les conditions sur $n$ et $p$ ne sont pas vérifiées on utilise l’intervalle vu en $1^{\text{ière}}$ avec la loi binomiale : on recherche les plus petits entiers $a$ et $b$ tels que :
    $\quad$ $-$ $P(X \le a) > 0,025$
    $\quad$ $-$ $P(X \le b) \pg 0,975$
    L’intervalle cherché est alors $\left[\dfrac{a}{n};\dfrac{b}{n}\right]$.

$\quad$

Exemple : Sur un court de Tennis, un lance-balle permet à un joueur de s’entraîner seul. Cet appareil envoie des balles une par une à une cadence régulière. Le joueur frappe alors la balle puis la balle suivante arrive.
Suivant le manuel du constructeur, le lance-balle envoie au hasard la balle à droite ou à gauche avec la même probabilité.
Le lance-balle est équipé d’un réservoir pouvant contenir $100$ balles. Sur une séquence de $100$ lancers, $42$ balles ont été lancées à droite.
Le joueur doute alors du bon fonctionnement de l’appareil. Ses doutes sont-ils justifiés?

On a $n=100\pg 30$ et $p=0,5$ donc $np=50 \pg 5$ et $n(1-p)=50 \pg 5$.
Par conséquent un intervalle de fluctuation asymptotique au seuil de $95\%$ est :
$\begin{align*}
I_{100}&=\left[0,5-1,96\sqrt{\dfrac{0,5\times 0,5}{100}};0,5+1,96\sqrt{\dfrac{0,5\times 0,5}{100}}\right] \\
&=[0,402;0,598]
\end{align*}$

La fréquence observée est $f=\dfrac{42}{100}=0,42\in I_{100}$.
L’appareil fonctionne correctement et les doutes du joueur ne sont pas justifiés.
$\quad$

II Estimation

1. Dans quel but?

On se trouve dans une situation dans laquelle la proportion $p$ dans la population d’un caractère étudié ne peut être déterminée. On souhaite cependant trouver, à l’aide d’expérimentations un intervalle auquel doit appartenir $p$. C’est notamment le cas quand on parle de sondages. Il est en effet impossible, pour les organismes de sondage, de connaître à l’avance les résultats d’une élection. Ils ne peuvent donc travailler que sur des groupes d’individus censés représenter la population dans sa globalité.

Remarque :  on considère la fonction $f$ définie sur l’intervalle $[0;1]$ par $f(x)=x-x^2$. Cette fonction admet un maximum pour $x=\dfrac{-b}{2a}=0,5$. Ce maximum vaut $f(0,5)=0,25$.
Par conséquent, pour tout réel $p\in[0;1]$ on a $0 \pp \sqrt{p(1-p)} \pp \sqrt{0,25}$ soit $0 \pp \sqrt{p(1-p)} \pp 0,5$.
Cela nous permet d’écrire que $0\pp 1,96 \dfrac{\sqrt{p(1-p)}}{\sqrt{n}} \pp \dfrac{0,98}{\sqrt{n}} \pp \dfrac{1}{\sqrt{n}}$.
Pour la suite, l’intervalle de fluctuation asymptotique $I_{n} = \left[ p-1,96 \times \dfrac{\sqrt{p(1-p)}}{\sqrt{n}}; p + 1,96 \times \dfrac{\sqrt{p(1-p)}}{\sqrt{n}} \right]$ sera simplifié en $\left[p-\dfrac{1}{\sqrt{n}};p+\dfrac{1}{\sqrt{n}}\right]$.
$\quad$

2. Estimation

 Propriété 5 : On considère un réel $p$ appartenant à l’intervalle $[0;1]$, un entier naturel $n$ non nul, $X_n$ une variable aléatoire suivant une loi binomiale $\mathscr{B}(n;p)$ et $F_n = \dfrac{X_n}{n}$ la variable aléatoire fréquence associée à $X_n$.
Pour $n$ suffisamment grand, $p$ appartient à l’intervalle $J_n=\left[F_n-\dfrac{1}{\sqrt{n}};F_n+\dfrac{1}{\sqrt{n}} \right]$ avec une probabilité supérieure ou égale à $0,95$.
Preuve Propriété 5

On utilise l’intervalle de fluctuation est $I_n=\left[p-\dfrac{1}{\sqrt{n}};p+\dfrac{1}{\sqrt{n}}\right]$.
Pour $n$ suffisamment grand $F_n$ appartient à cet intervalle avec une probabilité supérieure ou égale à $0,95$.
$\begin{align*}
F_n \in I_n &\ssi p-\dfrac{1}{\sqrt{n}} \pp F_n \pp p+\dfrac{1}{\sqrt{n}} \\
&\ssi -\dfrac{1}{\sqrt{n}} \pp F_n-p \pp \dfrac{1}{\sqrt{n}} \\
&\ssi F_n-\dfrac{1}{\sqrt{n}} \pp p \pp F_n+\dfrac{1}{\sqrt{n}} \\
&\ssi p\in J_n
\end{align*}$

[collapse]

$\quad$

 Définition 3 : On note $f$ la fréquence observée d’un caractère étudié sur un échantillon de taille $n$. L’intervalle $\left[f-\dfrac{1}{\sqrt{n}};f+\dfrac{1}{\sqrt{n}}\right]$ est appelé intervalle de confiance de la proportion $p$ au niveau de confiance $\boldsymbol{0,95}$.

$\quad$

Remarques :

  • L’amplitude d’un intervalle de confiance est : $\dfrac{1}{\sqrt{n}}-\left(-\dfrac{1}{\sqrt{n}}\right)=\dfrac{2}{\sqrt{n}}$. La précision des intervalles de confiance augmente avec la taille des échantillons.
  • $p$ étant inconnu, on ne peut pas vérifier si les conditions énoncées sur $n$ et $p$ vues dans la partie précédentes sont vraies. On va cependant, demander que : $n \ge 30, nf \ge 5$ et $n(1-f)\ge 5$.
  • Un intervalle de confiance n’est pas nécessairement centré en $p$.
  • Un niveau de confiance $0,95$ signifie que dans $95\%$ des cas, $p$ appartient à l’intervalle de confiance.

$\quad$

Exemple : Un institut effectue un sondage pour connaître, dans une population donnée, la proportion de personnes qui sont favorables à un projet d’aménagement du territoire.
Pour cela, on interroge un échantillon de personnes de cette population et l’on pose une question à chaque personne.

  • On suppose que $1~000$ personnes ont répondu à la question et que, parmi ces personnes, $29\%$ sont favorables au projet d’aménagement.
    On a donc $n=1~000\pg 30$, $f=0,29$ donc $nf=290 \pg 5$ et $n(1-f)=710 \pg 5$.
    Un intervalle de confiance est donc $I_{1~000}=\left[0,29-\dfrac{1}{\sqrt{1~000}};0,29+\dfrac{1}{\sqrt{1000}}\right] \approx [0,258;0,322]$.
  • On souhaite que l’amplitude de l’intervalle de confiance, au niveau de confiance de $0,95$, soit inférieure ou égale à $0,04$.
    Cela signifie donc que $\dfrac{2}{\sqrt{n}} \pp 0,04 \ssi \dfrac{2}{0,04} \pp \sqrt{n} \ssi 50 \pp \sqrt{n} \ssi 2~500 \pp n$.
    Il faut donc qu’au moins $2~500$ personnes répondent à la question pour que l’amplitude de l’intervalle de confiance soit inférieure ou égale à $0,04$.