Corrigé Statistiques inférentielle par par Pierre Veuillez

Intervalle de confiance.

Exercice

Déterminer une valeur approchée de la loi de la moyenne empirique :
E ( X n ) = E ( X ) , V ( X n ) = 1 n V ( X ) donc X n 𝒩 ( E ( X ) , 1 n V ( X ) )

Exercices

Variance

Soit X ayant une espérance m et une variance v , sa variance empirique est W n = 1 n X i 2 X n 2 avec X n la moyenne empirique de X et 1 n X i 2 la moyenne empirique de X 2 .

  1. Soit Y ayant une espérance et une variance. Calculer E ( Y 2 ) en fonction E ( Y ) et V ( Y )

  2. Calculer E ( X n ) et V ( X n ) et en déduire E ( X n 2 )

  3. Montrer enfin que E ( W n ) = n 1 n V ( X ) et en déduire un estimateur sans biais de la variance.

Solution

  1. V ( Y ) = E ( Y 2 ) E ( X ) 2 donc E ( Y 2 ) = V ( Y ) + E ( Y ) 2

  2. E ( X n ) = m et V ( X n ) = 1 n v donc E ( X n 2 ) = 1 n v + m 2

  3. E ( W n ) = 1 n E ( X i 2 ) = 1 n n ( v + m 2 ) ( 1 n v + m 2 ) = ( 1 1 n ) v = n 1 n v

    D'où E ( n 1 n W n ) = v et n 1 n W n variance empirique sans biais est un estimateur sans biais de la variance.

Question confidentielle.

Certains sujets abordés dans les enquêtes d'opinion sont parfois assez intimes, et on court le risque que les personnes interrogées se refusent à répondre franchement à l'enquêteur, faussant ainsi le résultat.

On peut alors avoir recours à une astuce consistant à inverser aléatoirement les réponses .

Considérons une question confidentielle pour laquelle on veut estimer la probabilité p de réponses positives.

L'enquêteur demande à chaque personne interrogée de lancer un dé.

Si l'enquêteur ignore le résultat du dé, il ne pourra pas savoir si la réponse est franche ou non, et on peut espérer que la personne sondée acceptera de jouer le jeu.

Généralisons légèrement la situation en tirant pour chaque personne une variable de Bernoulli de paramètre α .

Soit n le nombre de personnes interrogées.

L'enquêteur ne recueille que la fréquence empirique F n des ``oui''.

  1. Montrer que la probabilité de ``oui'' à l'issue de la procédure est q = α p + ( 1 α ) ( 1 p )

  2. Montrer que F n , la fréquence observée par l'enquêteur, est un estimateur sans biais de q et de risque quadratique tendant vers 0 quand n tend vers +

  3. Pour α 1 / 2 exprimer p en en fonction de q .

  4. En déduire que T n = F n 1 + α 2 α 1 est un estimateur sans biais de p dont le risque quadratique tend vers 0 quand n tend vers + .

  5. Pour n fixé, quelle valeur attribuer à α pour que le risque quadratique soit minimum ? Est-ce acceptable ?

    Pour quelle valeur de α ce risque est-il maximum ?

    Quel sera le risque quadratique avec le dé ( α = 1 / 6 )

Loi uniforme

Soit X de loi 𝒰 [ 0 , a ] et ( X 1 , \dots X n ) une n -échantillon de variables. Etimation de a :

X a une espérance de a / 2. Soit X n la moyenne empirique.

  1. Soit T n = 2 X n . Montrer que T n est sans biais et déterminer son risque quadratique

  2. Soit T n = max ( X 1 , \dots , X n )

    Déterminer la fonction de répartition de X puis celle de T n

    En déduire sa densité puis son biais et son risque quadratique.

  3. Soit T n = n + 1 n T n déterminer son biais et son risque quadratique.

  4. Quel est le meilleur estimateur de a pour de grandes valeurs de n ?

solution:

  1. X n = 1 n i = 1 n X i donc E ( X n ) = 1 n i = 1 n E ( X i ) = a 2 d'où E ( T n ) = 2 a 2 = a et T n est sans biais.

    V ( X n ) = 1 n 2 i = 1 n V ( X i ) car les ( X i ) sont indépendantes.

    E ( X i 2 ) = 0 a 1 a t 2 t = 1 a [ t 3 / 3 ] 0 a = a 2 3 donc V ( X i ) = a 2 3 a 2 4 = a 2 12 d'où V ( X n ) = n a 2 12 n 2 .

    La variance de T n = 2 X n est alors V ( T n ) = 4 V ( X n ) = a 2 3 n et donc son risque quadratique est a 2 3 n + 0 2 = a 2 3 n

  2. La fonction de répartition F de X est : F ( x ) = x f ( t ) t = { 0 si  x < 0 0 x 1 a t = x a si  x [ 0 , a ] 1 si  x > a

    ( T n t ) = ( max ( X 1 , \dots , X n ) t ) = i = 1 n ( X i t ) et en notant F la fonction de répartition de X , et G celle de T n on a alors

    G ( t ) = F ( t ) n .

    F est continue sur et C 1 sauf en 0 et a donc G également et T n est à densité de densité : g ( t ) = G ( t ) = n f ( t ) F n 1 ( t ) = { 0 si  x [ 0 , a ] n a ( x a ) n 1 si  x [ 0 , a ]

    L'espérance (qui existe) de T n est alors 0 a t g ( t ) t = 0 a n a n t n t = [ n n + 1 1 a n t n + 1 ] 0 a = n n + 1 a

    Donc T n a pour biais ( n n + 1 1 ) a = a n (biaisé mais son biais tend vers 0 quand n + )

    L'espérance (qui existe) de T n 2 est 0 a t 2 g ( t ) t = 0 a n a n t n + 1 t = [ n n + 2 1 a n t n + 2 ] 0 a = n n + 2 a 2

    Donc la variance de T n est V ( T n ) = E ( T n 2 ) E ( T n ) 2 = n n + 2 a 2 ( n n + 1 ) 2 a 2 = n ( n + 1 ) 2 ( n + 2 ) a 2 et son risque quadratique est r = V ( T n ) + b 2 = n ( n + 1 ) 2 ( n + 2 ) a 2 + 1 n 2 a 2 = ( n ( n + 1 ) 2 ( n + 2 ) + 1 n 2 ) a 2 2 n 2 a 2

  3. Alors T n = n + 1 n T n a pour espérance n + 1 n E ( T n ) = a donc T n est sans biais.

    Sa variance est V ( T n ) = ( n + 1 n ) 2 V ( T n ) = 1 n ( n + 2 ) a 2 et a pour risque quadratique r = 1 n ( n + 2 ) a 2 1 n 2 a 2 ce qui est (pour n grand) deux fois mieux que T n .

  4. Donc pour de grandes valeurs de n , T n est le meilleur estimateur de a .

Intervalle de confiance pour le paramètre d'une variable de Bernouilli.

Lors d'un sondage sur 100 personnes interrogée, 60 pensent voter pour A

On modélise le choix par un échantillon ( X 1 , \dots , X 1 0 0 ) de variable indépendantes de même loi de Bernouilli de paramètre p .

On cherche à déterminer un intervalle de confiance pour p au niveau de confiance 99% (1% de risque)

  1. Déterminer l'espérance et la variance de la fréquence empirique F = 1 100 i = 1 100 X i ?

  2. On note F * la fréquence empirique centrée réduite.

    Par quelle loi peut on approcher celle de F * ? On suppose désormais que F * suit 𝒩 ( 0 , 1 )

  3. Déterminer t tel que P ( t F * t ) 0 , 99 et en déduire que P ( F t p ( 1 p ) 10 p F + t p ( 1 p ) 10 ) 0 , 99

  4. Montrer que pour tout p [ 0 , 1 ] , p ( 1 p ) 1 4 et en déduire que [ F t / 20 ; F + t / 20 ] est un intervalle de confiance de p au niveau de confiance 99%

Solution

  1. On a E ( F 1 0 0 ) = E ( 1 100 i = 1 100 X i ) = 1 100 i = 0 100 E ( X i ) = 1 100 100 p = p

    Donc F n est un estimateur sans biais de p

  2. Somme de variables indépendantes de même loi ( 1 , p ) : V ( X i ) = p ( 1 p ) 0 et E ( X i ) = p

    Donc avec F = 1 100 i = 1 100 X i , F * peut être approchée par une loi Normale centrée réduite.

    V ( F ) = 1 100 2 i = 1 100 V ( X i ) car les ( X i ) i sont indépendantes. Donc V ( F ) = 1 100 p ( 1 p ) et

    F * = F p p ( 1 p ) 100 = 10 p ( 1 p ) ( F p ) la fréquence empirique centrée réduite suit approximativement une loi 𝒩 ( 0 , 1 )

  3. Comme t t : P ( t F * t ) = Φ ( t ) Φ ( t ) = Φ ( t ) ( 1 Φ ( t ) ) = 2 Φ ( t ) 1

    On résout : 2 Φ ( t ) 1 = 0 , 99 Φ ( t ) 0,995 et on lit sur la table de la lo Normale pour t = 2 , 58

    N.B. première transformation à connaître : ( t F * t ) = ( t 10 p ( 1 p ) ( F p ) t ) = ( t p ( 1 p ) 10 F p t p ( 1 p ) 10 ) = ( F t p ( 1 p ) 10 p F + t p ( 1 p ) 10 )

    Donc P ( F n t p ( 1 p ) 10 p F n + t p ( 1 p ) 10 ) 0 , 99

  4. On étudie les variations de f ( p ) = p ( 1 p ) .

    f est dérivable sur et f ( p ) = 1 p p = 1 2 p

    p 0 1 / 2 1
    f ( p ) = 1 2 p + 0 affine
    f ( p ) 1 / 4
    et p ( 1 p ) 1 4

    On a alors p ( 1 p ) 1 2 donc

    N.B. seconde transformation à connaître :

    ( F n t p ( 1 p ) 10 p F n + t p ( 1 p ) 10 ) ( F n t 1 20 p F n + t 1 20 ) et P ( F n t / 20 p F n + t / 20 ) P ( F n t p ( 1 p ) 20 p F n + t p ( 1 p ) 20 ) 0 , 99

    Donc [ F n t / 20 ; F n + t / 20 ] est un intervalle de confiance de p au niveau de confiance 99% soit avec l'échantillon de données : p ^ = 0 , 6

    t / 20 0 , 13 , l'intervalle de confiance au niveau 99% est [ 0 , 47 ; 0 , 73 ] ... ce qui ne renseigne pas beaucoup sur les chances de remporter l'élection..

    Avec un échantillon de taille 10000, on trouvera l'intervalle [ F n t / 200 , F n + t / 200 ] soit une largeur d'intervalle proche de 5 % pour un niveau de confiance de 99%.

    Avec un niveau de confiance de 95%, on a t = 1 , 96 et pour n = 1000 on a t p ( 1 p ) 1000 0,0302 , c'est la classique des sondages : pour un échantillon de 1000 personne, le résultat est donné avec un intervalle de confiance de 3% (ce que ne disent pas les sondeurs, c'est que cela n'est sûr qu'à 95% : il y a 5% de chance que la valeur réelle soit hors de cet intervalle de

Intervalle de confiance par Bienaymé-Tchebichev

Soit a [ 0 ; 2 3 ] , X 𝒰 [ 0 , a ] et ( X 1 \dots X n ) un n -echantillon de variables de même loi que X et indépendantes.

On cherche un intervalle de confiance de a 2 au niveau de confiance 99% (niveau de risque 1%).

On note X n la moyenne empirique

  1. Rappeler la moyenne m de X et montrer que V ( X ) = a 2 12 . En déduire la moyenne et l'espérance de X n .

  2. En déduire que P ( | X n a 2 | > 0 , 1 ) 100 n

  3. Déterminer enfin n pour que [ X n 0 , 1 ; X n + 0 , 1 ] soit un intervalle de confiance de a 2 au niveau de confiance 99%

  4. Ecrire un programme PASCAL qui

    Le programme a affiché 0,534.

  5. Par quelle loi peut-on approcher celle de X 1 0 0 0 ?

  6. Déterminer t pour que P ( t 12 a 100 ( X n a 2 ) < t ) 0 , 99 et en déduire un autre intervalle de confiance de a 2 au niveau α

Solution

Soit a [ 0 ; 2 3 ] , X 𝒰 [ 0 , a ] et ( X 1 \dots X n ) un n échantillon de variables de même loi que X et indépendantes.

On cherche un intervalle de confiance de a 2 au niveau de confiance 99% (niveau de risque 1%).

On note X n la moyenne empirique

  1. On a E ( X ) = a 2

    Et comme la densité de X est nulle hors de [ 0 , a ] et vaut 1 a sur [ 0 , a ] on a E ( X 2 ) = 0 a t 2 a t = [ t 3 3 a ] 0 a = a 2 3 et donc X a une variance qui est V ( X ) = a 2 3 ( a 2 ) 2 = a 2 12

    Donc E ( X n ) = E ( 1 n i = 1 n X i ) = 1 n i = 1 n E ( X i ) = n n E ( X ) = a 2

    Et V ( X n ) = E ( 1 n i = 1 n X i ) = 1 n 2 i = 1 n V ( X i ) car les X i sont indépendants \dots = 1 n 2 n V ( X ) = a 2 12 n

    Rappeler la moyenne m de X et montrer que V ( X ) = a 2 12 . En déduire la moyenne et l'espérance de X n .

  2. D'après l'inégalité de Bienaymé-Tchebichev on a alors P ( | X n a 2 | > 0 , 1 ) V ( X n ) 0 , 1 2 = 100 a 2 12 n et comme 0 a 2 3 alors a 2 12 et donc P ( | X n a 2 | > 0 , 1 ) 100 n et P ( | X n a 2 | 0 , 1 ) 1 100 n

  3. Comme l'événement ( | X n a 2 | 0 , 1 ) s'écrit ( 0 , 1 X n a 2 0 , 1 ) ou encore :
    ( X n 0 , 1 a 2 X n + 0 , 1 )

    Donc pour n = 10000 on a P ( X n 0 , 1 a 2 X n + 0 , 1 ) 1 0 , 01 et [ X n 0 , 1 ; X n + 0 , 1 ] est un intervalle de confiance de a 2 au niveau de confiance 99%

  4. Ecrire un programme PASCAL qui

    Program estim;

    var a,x,s:real;k:integer;

    begin

    randomize;a:=random(2*(3));s:=0;{initialisation}

    for k:=1 to 10000 do

    begin

    x:=random(a);

    s:=s+x;

    end;

    writeln('la moyenne est :',s/10000);

    end.

    Le programme a affiché 0,534.

  5. La loi i = 1 n X i somme de variables indépendantes de même loi qui a pour espérance n a 2 , et pour variance n a 2 12 .

    DOnc centreée réduite, elle peut être approchée par une loi 𝒩 ( 0 , 1 ) et X n * = X n a / 2 a 2 / 12 n par 𝒩 ( 0 , 1 )

  6. Et pour n = 10000 : P ( t 12 a 100 ( X n a 2 ) < t ) Φ ( t ) Φ ( t ) = 2 Φ ( t ) 1

    On résout 2 Φ ( t ) 1 0 , 99 Φ ( t ) 0,995 ce qui est vérifié pour t = 2 , 58 2 , 6

    On a ( t 12 a 100 ( X n a 2 ) < t ) = ( X n t a 100 12 a 2 < X n + t a 100 12 ) avec a 100 12 1 100

    donc [ X n 0 , 026 ; X n + 0 , 026 ] est un intervalle de confiance de a 2 au niveau de confiance 99% (soit une précision quatre fois meilleure qu'avec la formule de Bienaymé-Tchebichev)


Comptage par capture et recapture

On cherche à évaluer le nombre N de poissons dans un étang.

Pour cela, on prélève dans l'étang m poissons que l'on bague avant les remettre dans l'étang.

On propose deux méthodes différentes d'estimation de N .




Méthode 1
Soit n * , n m .
On prélève des poissons dans l'étang, au hasard et avec remise.
On note X n la variable aléatoire égale au nombre de poissons qu'il a été nécessaire de pêcher pour obtenir n poissons marqués.
Pour tout i [ 2 , n ] , on pose D i = X i X i 1 . On pose D 1 = X 1 et on suppose que les D i sont des variables indépendantes.

    1. Pour tout i [ 2 , n ] , quelle est la signification de D i ?

    2. Déterminer, pour i [ 2 , n ] , la loi de D i , son espérance et sa variance.
      En déduire l'espérance et la variance de X n .

    3. On pose A n = m n X n . Montrer que A n est un estimateur sans biais de N et déterminer son risque quadratique.

    1. Pour n assez grand, par quelle loi peut-on approcher la loi de la variable aléatoire X n = X n n (on utilisera le théorème de la limite centrée)?

    2. On a marqué 200 poissons puis effectué 450 prélèvements pour obtenir 50 poissons marqués.
      On pose σ = σ ( A n ) . On a pu prouver par ailleurs que σ 100 .
      Déterminer en fonction de σ , un intervalle de confiance pour N au seuil 0.9 (On donne Φ ( 1 , 64 ) 0 , 95 ) .




Méthode 2
On prélève successivement et avec remise n poissons. Soit Y n le nombre de poissons marqués parmi eux.

  1. Montrer que 1 n m Y n est un estimateur sans biais de 1 N .

  2. Pour quelle raison évidente ne peut-on pas prendre n m Y n comme estimateur de N ?
    On pose alors B n = m ( n + 1 ) Y n + 1

    1. Calculer l'espérance de B n .

    2. Est-il un estimateur sans biais de N ?

Solution




Méthode 1

    1. D i est la différence du nombre de pèche nécessaire pour obtenir i 1 et i poissons marqués.

      C'est le nombre de pèche pour obtenir un poisson marqué de plus.

    2. Donc D i est le nombre de pèches pour obtenir un poisson marqué de plus dans une suite de pèche (on peut supposer que la pèche se continue indéfiniment) indépendantes (avec remise, en supposant que les poissons sont bêtes et ne se souviennent pas qu'il ne faut pas mordre à l'hameçon) ayant toutes une probabilité m N de donner un poisson marqué.

      Donc D i 𝒢 ( m N ) et E ( D i ) = N m et V ( D i ) = 1 m N ( m N ) 2 = N ( N m ) m 2

      Comme D 1 + D 2 + \dots + D n = X n on a alors E ( X n ) = n N m et comme les ( D i ) i sont indépendants, V ( X n ) = n N ( N m ) m 2

    3. On pose A n = m n X n .

      On a alors E ( A n ) = m n E ( X n ) = N donc A n est un estimateur sans biais de N .

      Sa variance est V ( A n ) = V ( m n X n ) = m 2 n 2 V ( X n ) = N ( N m ) n

      Donc son risque quadratique est : biais 2 + V ( A n ) = N ( N m ) n

    1. Pour n assez grand, X n étant une somme de variables indépendantes et de même loi, X n * peut être approchée par une loi normale centrée réduite.

    2. A n suit alors également une loi normale de paramètres E ( A n ) = N et et V ( A n ) = σ 2

      et A n N σ suit une loi normale centrée réduite.

      Donc P ( t A n N σ t ) = Φ ( t ) Φ ( t ) = Φ ( t ) [ 1 Φ ( t ) ] = 2 Φ ( t ) 1

      Et P ( t A n N σ t ) 0 , 9 2 Φ ( t ) 1 0 , 9 Φ ( t ) 0 , 95 Φ ( 1 , 64 ) t 1 , 64 car Φ est croissante sur

      Comme σ 100 alors ( t A n N σ t ) = ( A n t σ N A n + t σ ) ( A n t 100 N A n + t 100 )

      Et avec t = 1 , 64 : P ( A n t 100 N A n + t 100 ) P ( t A n N σ t ) 0 , 9

      Donc [ A n 164 , A n + 164 ] est un intervalle de confiance de N au niveau de confiance 0 , 9

      Avec ici : m = 200 ; n = 50 et X 5 0 = 450

      Donc A 5 0 = 200 50 X 5 0 = 1800 (Estimation ponctuelle de N )

      et on est sûr à 90% que le nombre de poissons dans l'étang est compris dans l'intervalle [ 1636 , 1964 ]




Méthode 2
On prélève successivement et avec remise n poissons. Soit Y n le nombre de poissons marqués parmi eux.

  1. Le nombre Y n de poissons marqués suit une loi binomial de paramètres ( n , m N ) .

    Donc son espérance est E ( Y n ) = n m N et E ( 1 n m Y n ) = 1 N

    Donc 1 n m Y n est un estimateur sans biais de 1 N .

    On a V ( Y n ) = n m N ( 1 m N ) = n m ( N m ) N 2 donc V ( 1 n m Y n ) = ( 1 n m ) 2 V ( Y n ) = ( N m ) n m N 2

    Donc le risque quadratique de 1 n m Y n comme estimateur de 1 N est ( N m ) n m N 2

  2. Comme Y n peut être nul avec une probabilité non nulle, n m Y n aurait une probabilité non nulle de ne pas être défini.
    On pose alors B n = m ( n + 1 ) Y n + 1

    1. On utilise le théorème de transfert : les valeurs de Y n sont [ [ 0 , n ] ]

      E ( B n ) = k = 0 n m ( n + 1 ) k + 1 P ( Y n = k ) = k = 0 n m ( n + 1 ) k + 1 ( n k ) p k q n k il faut développer le coefficient du binôme pour simplifier l'expression.

      en notant p = m N et q = 1 m N

      E ( B n ) = k = 0 n m ( n + 1 ) k + 1 n ! k ! ( n k ) ! p k q n k = k = 0 n m ( n + 1 ) ! ( k + 1 ) ! ( n k ) ! p k q n k

      On y reconnaît ( n + 1 k + 1 ) et on réindexe h = k + 1 pour faire réapparaitre la formule du binôme... pour la puissance n + 1

      E ( B n ) = k = 0 n m ( n + 1 k + 1 ) p k q n k = k = 1 n + 1 m ( n + 1 h ) p h 1 q n + 1 h = m p ( k = 0 n + 1 ( n + 1 h ) p h q n + 1 h q n + 1 ) = m p ( ( p + q ) n + 1 q n + 1 ) = m p ( 1 q n + 1 ) = N ( 1 q n + 1 )

    2. Donc B est biaisé, mais quand n tend vers + (quand on augmente le nombre de repêche) le biais tend vers 0 : il est asymptotiquement sans biais.