Echantillonnage
Définition
Deux épreuves sont indépendantes lorsque le résultat de l'une n'influe pas sur le résultat de l'autre.
Définition
On répète $n$ fois une expérience aléatoire à 2 issues. On suppose que les expériences sont indépendantes.
Les résultats obtenus lors de ces $n$ répétitions constituent un échantillon de taille $n$ de l'expérience.
Exemple
On jette une pièce 10 fois. On obtient à chaque fois soit Pile (noté P), soit Face (noté F). Les lancers sont indépendants.
Un échantillon de taille 10 est, par exemple, (P;P;F;P;F;F;F;P;F;F).
Exemple
Une ville de 100 000 habitants comporte 30 000 personnes de groupe sanguin O-.
On choisit 50 personnes dans cette ville. On teste leur groupe sanguin.
Soit la personne choisie est O-, soit elle ne l'est pas.
Les résultats obtenus peuvent-ils constituer un échantillon?
Corrigé
La probabilité que la première personne choisie soit O- vaut ${30\, 000}/{100\, 000}=0,3$.
Si la première personne est effectivement O-, alors la probabilité que la seconde personne choisie soit aussi O- vaut ${29\, 999}/{99\, 999}≈0,3$.
Si la première personne n'est pas O-, alors la probabilité que la seconde personne choisie soit O- vaut ${30\, 000}/{99\, 999}≈0,3$.
On constate que la probabilité qu'une personne choisie soit O- varie! Les tests ne sont pas indépendants.
Théoriquement , les résultats ne forment donc pas un échantillon.
Voyons ce qui se passe dans la pratique!
On constate que la valeur de la probabilité varie très peu entre la première et la seconde personne testée. Et comme 50 est très petit par rapport à $100\,000$, la probabilité variera très peu suivant les personnes, et elle sera toujours quasiment la même pour la dernière personne testée.
C'est pourquoi, dans ce type de test, on considère dans la pratique que l'on a affaire à un échantillon .
Exemple
Raphaël joue aux fléchettes. A chaque tir, la probabilité qu'il atteigne le centre de la cible vaut 0,3.
1. Ses résultats sur $n$ lancers constituent-ils un échantillon?
2. Quelle est l'utilité de la fonction prop(n) ci dessous (écrite en PYTHON).
from random import*
def prop(n):
nbre=0
for k in range(n):
if random()<=0.3:
nbre=nbre+1
f=nbre/n
return f
Rappel: la fonction random(), définie dans le module random, retourne un nombre aléatoire uniformément choisi entre 0 et 1.
Solution...Corrigé
1. Comme la probabilité de réussite ne varie pas, les tirs de Raphaël sont bien indépendants les uns des autres. Et chaque tir comporte 2 issues: soit il est réusi, soit il est raté.
Par conséquent, ses résultats sur $n$ lancers constituent effectivement un échantillon.
2. La fonction simule $n$ lancers de Raphaël et retourne la proportion de tirs réussis.
Ici, si le nombre random() est inférieur ou égal à 0,3, alors le tir est supposé réussi, et la variable nbre augmente de 1.
La variable f contient finalement la fréquence de tirs réussis.
Propriété
Loi des grands nombres (simplifiée)
On répète $n$ fois une expérience aléatoire à 2 issues S et E. On suppose que les expériences sont indépendantes.
On considère un échantillon de taille $n$ associé à ces $n$ répétitions.
Soit $f$ la fréquence observée de S dans cet échantillon, et $p$ la probabilité de S
Si $n$ est grand, alors, sauf exception, $f$ est proche de $p$.
Exemple
On reprend l'exemple précédent où Raphaël joue aux fléchettes.
Le script suivant (en PYTHON) utilise la fonction prop(n) définie précédemment.
compteur=0
for k in range(200):
if 0.2<=prop(100)<=0.4:
compteur=compteur+1
print(compteur/200)
Quelle est l'utilité de ce programme?
Solution...Corrigé
Ce programme va simuler 200 séries de 100 lancers de Raphaël.
Pour chaque série, si la proportion de tirs réussis est comprise entre 0,2 et 0,4 (c'est à dire assez proche de la probabilité de réussite qui est égale à 0,3), alors la variable compteur augmente de 1.
Finalement, le programme va afficher la proportion de séries pour lesquelles la proportion de tirs réussis est comprise entre 0,2 et 0,4.
D'après la loi des grands nombres, la valeur affichée sera proche de $100\%$
Dans la pratique, si l'on teste ce programme, la valeur affichée est quasiment à chaque fois comprise entre 0,95 et 1.
Dans la plupart des échantillons, la fréquence de réussite observée est donc très proche de la probabilité de réussite.
La loi des grands nombres est bien vérifiée.
Propriété
Estimation d'une probabilité (ou d'une proportion) inconnue
On répète $n$ fois une expérience aléatoire à 2 issues S et E. On suppose que les expériences sont indépendantes.
On suppose que la probabilité $p$ de S est inconnue.
On considère un échantillon de taille $n$ associé à ces $n$ répétitions.
Soit $f$ la fréquence observée de S dans cet échantillon.
Si $n$ est assez grand ($n≥25$), et que $f$ n'est ni trop petit ni trop grand ($0,2≤f≤0,8$),
alors on peut estimer que $p$ se situe dans l'intervalle de confiance $[\,f-{1}/{√{n}}; f+{1}/{√{n}}\,]$ avec niveau de confiance égal à 0,95.
Exemple
On reprend l'exemple précédent concernant Raphaël qui joue aux fléchettes.
Son amie Jeanne se demande quelle est la probabilité $p$ qu'elle atteigne le centre de la cible.
Elle effectue 100 tirs et atteint le centre de la cible 38 fois.
On suppose que ses tirs sont indépendants les uns des autres.
Estimer la valeur de $p$
Jeanne joue-t-elle mieux que Raphaël?
Corrigé
Le nombre de tirs est $n=100$. La fréquence de tirs réussis est égale à ${38}/{100}=0,38$.
On a $n≥25$ et $0,2≤f≤0,8$
On calcule: $[\,f-{1}/{√{n}}; f+{1}/{√{n}}\,]=[\,0,38-{1}/{√{100}}; 0,38+{1}/{√{100}}\,]=[\,0,28;0,48\,]$
On peut donc estimer que $p$ se situe dans l'intervalle de confiance $[\,0,28;0,48\,]$ avec niveau de confiance égal à 0,95.
On ne sait pas si Jeanne joue mieux que Raphaël.
En effet, la probailité de réussite de Raphaël, qui vaut 0,30, se situe justement dans l'intervalle de confiance proposé.
Or la probabilité $p$ peut se situer n'importe où dans cet intervalle (elle peut même être en dehors, mais cela arrive dans moins de $5\%$ des intervalles de confiance).
Donc, on ne connaît pas la position de $p$ par rapport à 0,30.
En particulier, on peut pas affirmer que $p$ est supérieure à 0,30.