Concentration, loi des grands nombres
A SAVOIR: le cours sur Concentration, loi des grands nombresExercice 4
Un virus infecte une partie de la population. On appelle $p$ la proportion de la population porteuse du virus.
Plusieurs articles affirment que $32\%$ de la population est atteinte.
Un institut est chargé de vérifier la validité de cette affirmation.
L'institut veut donc déterminer si l'hypothèse "$p=0,32$" est vraie.
$n$ personnes sont testées successivement. On considère que les tests sont indépendants et parfaitement fiables.
Soit $f$ la fréquence de malades parmi les $n$ personnes.
- Supposons que la proposition "$p=0,32$" soit vraie.
Soit $M_n$ la variable aléatoire donnant la fréquence de malades parmi les $n$ personnes.
Montrer à l'aide de l'inégalité de concentration que:
$p(0,28$<$M_n$<$0,36)≥1-{136}/{n}$
- Compte tenu du résultat précédent, combien de personnes suffit-il de tester pour que l'on ait l'inégalité: $p(0,28$<$M_n$<$0,36)≥0,95$.
- L'institut teste 2800 personnes, et il constate que 700 sont malades.
En s'appuyant sur le résultat obtenu au 2., l'institut déclare alors que l'affirmation "$32\%$ de la population est atteinte" est fausse.
Donner un majorant du risque que l'institut se trompe. - Déterminer une valeur précise du risque d'erreur de l'institut (arrondie à $10^{-6}$ près).
- L'institut se rend compte qu'une erreur s'est produite lors de la transmission des données de l'étude. L'échantillon testé ne contenait pas 700 malades, mais 900 malades.
L'institut publie alors le communiqué suivant.
"Au seuil de $95\%$, nous ne pouvons pas affirmer que les articles qui prétendent que $32\%$ de la population est infectée sont faux".
Déterminer la valeur de $p(848≤B≤944)$, arrondie à 0,001 près, où B est la binomiale de paramètres $n=2800$ et $p=0,32$.
Expliquer l'affirmation de l'institut.
Connaît-on la probabilité d'accepter à tort l'hypothèse que $p=32\%$?
Corrigé
- Soit $X_i$ la variable aléatoire qui vaut 1 si la i-ème personne testée est malade, et 0 sinon.
Chacune des $X_i$ suit la loi de Bernoulli de paramètre $p=0,32$.
Appelons X la variable aléatoire qui suit la loi de Bernoulli de paramètre $p=0,32$.
On a: $E(X)=p×1+(1-p)×0=p=0,32$
Et: $V(X)=p×1^2+(1-p)×0^2-E^2=p-p^2=p(1-p)=0,32×0,68=0,2176$.
Les tests étant indépendants, la liste ($X_1$, $X_2$,...,$X_{n}$) est un échantillon aléatoire de taille $n$ de X.
Soit $M_n$ la variable aléatoire moyenne de l'échantillon.
D'après l'inégalité de concentration, on obtient, pour tout réel $δ$ strictement positif:
$p(|M_n-p|≥δ)≤{V(X)}/{nδ^2}$
Prenons: $δ=0,04$
On a donc:: $p(|M_n-0,32|≥0,04)≤{0,2176}/{n0,04^2}$
Soit: $p(|M_n-0,32|≥0,04)≤{136}/{n}$
Et, en considérant l'événement contraire:
$p(0,28$<$M_n$<$0,36)≥1-{136}/{n}$
- Par conséquent, pour avoir $p(0,28$<$M_n$<$0,36)≥0,95$, il suffit que:
$1-{136}/{n}≥0,95$
Soit: $1-0,95≥{136}/{n}$
Soit: $n≥{136}/{0,05}$ (on rappelle que $n$ est strictement positif, et par là, le sens de l'inégalité ne change pas)
On obtient donc: $n≥2720$.
Il suffit donc de tester au moins 2720 personnes pour que l'on ait l'inégalité:
$p(0,28$<$M_n$<$0,36)≥0,95$. - Les 700 malades de l'échantillon correspondent à $25\%$ des 2800 personnes testées.
La valeur prise par $M_n$ est donc de $0,25$. Elle n'est pas dans l'intervalle $]0,28;0,36[$.
Or l'institut a testé plus de 2720 personnes, et d'après le 2., la probabilité que la fréquence de malades dans un tel échantillon soit dans l'intervalle $]0,28;0,36[$ est d'au moins 0,95.
Par conséquent, si effectivement on avait $p=0,32$, alors l'institut est confronté à un événement qui avait une probabilité d'arriver inférieure à $5\%$.
L'institut choisit donc de contester l'affirmation "$32\%$ de la population est atteinte".
Le risque qu'il se trompe est inférieur à $5\%$. - $28\%$ de 2800 correspond à 784 personnes
$36\%$ de 2800 correspond à 1008 personnes
On a alors: $p(0,28$<$M_n$<$0,36)=p(784$<$B$<$1008)$, où B est la binomiale de paramètres $n=2800$ et $p=0,32$.
On calcule alors: $p(784$<$B$<$1008)=p(B≤1007)-p(B≤784)≈0,999996-0,000002≈0,999994$
Le risque que l'institut se trompe est donc d'environ $6×10^{-6}$. C'est très faible ! En tout cas bien inférieur aux $5\%$ obtenus précédemment !
On notera à nouveau que les majorations ou minorations obtenues à l'aide de l'inégalité de concentration sont loin d'être optimales... - On calcule: $p(848≤B≤944)=p(B≤944)-p(B≤847)≈0,975-0,024≈0,951$
Or le nombre de malades dans l'échantillon est de 900. Il est donc dans l'intervalle [848;944].
Par conséquent, si effectivement on avait $p=0,32$, alors l'institut est confronté à un événement qui avait une probabilité d'arriver légèrement supérieure à $95\%$.
L'institut choisit donc de ne pas contester l'affirmation "$32\%$ de la population est atteinte".
Le risque d'accepter à tort le fait que $p=32\%$ est inconnu !
Remarques.
Il ne faut surtout pas dire que la probabilité que $p$ vaille $32\%$ est d'au moins 0,95.
La première raison est que la valeur de $p$ n'est pas aléatoire. Les probabilités n'ont pas leur place ici.
Le seconde raison est la suivante.
Imaginons que $p$ ne vaille pas $32\%$, mais qu'elle en soit assez proche, par exemple $p=33\%$. Dans ce cas précis, on trouverait que $p(848≤B≤944)≈0,80$, ce qui est assez grand. Par conséquent, comme 900 est compris entre 848 et 944, nous serions dans un cas qui n'est pas improbable, alors que $p$ serait différent de $32\%$.
Et c'est vrai pour toutes les valeurs de $p$ proches de $\32\%$.
Du coup, la valeur de $p$ reste inconnue. On peut cependant supposer qu'elle est sans doute proche de $\32\%$.