Pierre Veuillez Statistiques inférentielle

Sources, et pour en savoir plus : http://www.math-info.univ-paris5.fr/smel

Problématique :

Exemple

une urne contient des boules rouges et blanches dont on ne connaît pas la composition.

En 100 tirages on a obtenu 30 Rouges et 70 Blanches.

A combien peut-on estimer la proportion de boules rouges dans l'urne ?

Formalisation

X une variable aléatoire liée à une expérience aléatoire dont on ne connaît que partiellement la loi. (Ici, loi de Bernouilli valant 1 si l'on a R et 0 sinon)

Typiquement on connaît le type de la loi mais pas son paramètre θ . On sait seulement que ce paramètre prend ses valeurs dans un ensemble Θ . (ici, le paramètre p qui est la proportion de boules Rouges)

La valeur x prise par X dans une expérience est appelée réalisation de X .

On cherche, via des réalisations de X à estimer (trouver une valeur approchée) la valeur du paramètre θ de la loi de X -estimation ponctuelle- ou un intervalle dans lequel il a une certaine probabilité de se trouver -estimation par intervalle de confiance-.

On pourra aussi faire ce travail pour d'autres grandeurs (espérance, variance ...) liées à X

Par exemple

Pour un lancer de pièce truquée, dans une suite de lancers Pile/Face on a obtenu 2 Pile 8 Face, on peut estimer que la probabilité de Pile est la fréquence empirique 2/10

Fréquence empirique

La fréquence empirique des succès est le nombre de succès sur le nombre d'expériences.

On peut la définir à partir de variables de Bernouilli X i valant 1 pour succès et au i ème lancer et 0 sinon.

F = i = 1 n X i 10 est la fréquence empirique des succès lors des 10 premières expériences.

Modélisation

Pour modéliser la répétition de l'expérience, on se donne une liste ( X 1 , \dots , X n ) de variables aléatoires indépendantes et de même loi que X appelé n -échantillon de variables aléatoires.

Une liste de valeurs ( x 1 , \dots , x n ) prises par ces n variables est appelé n -échantillon de données.

Estimation ponctuelle

Un estimateur est une variable aléatoire T n fonction du du n -échantillon de variables T n = f ( X 1 , \dots , X n ) ou plus exactement une suite de telles variables ( T n ) n

La valeur f ( x 1 , \dots , x n ) souvent notée θ ^ prise par l'estimateur sur un n -échantillon de données est appelé estimation de θ . (ou d'autre grandeur)

Qualités

Biais

Le biais de T n comme estimateur de θ est b = E ( T n θ ) = E ( T n ) θ . C'est l'écart moyen entre la valeur prise par T n et la valeur à estimer θ .

Quand le biais est nul, on dit l'estimateur sans biais; il donne alors en moyenne la bonne valeur. Mais rien ne l'empêche de s'en éloigner car les écarts par excès et par défaut peuvent se compenser.

Exemple

Pour un lancer de pièce : X = 1 si Pile et = 0 si Face. X suit une loi de Bernouilli de paramètre p = P ( Pile )

Et on se donne un n -échantillon de variables de même loi que X : ( X 1 \dots X n )

Soit T n = X 1 , on a E ( T n ) = E ( X 1 ) = p l'estimateur est sans biais mais les valeurs prises par T n (0 ou 1) ne s'approcheront jamais de la valeur à estimer p .

Risque quadratique.

Le risque quadratique de T n comme estimateur de θ est E ( ( T n θ ) 2 )

Ici, les écarts en plus et en moins se cumulent. (le carré est positif)

De plus, l'écart de T n avec θ étant élevé au carré, les grand écarts pèseront encore d'avantage que dans E ( | T n θ | ) par exemple.

C'est lui que l'on utilisera pour comparer deux estimateur. Plus le risque quadratique est petit, meilleur sera l'estimateur.

Théorème

Le risque quadratique est : E ( ( T n θ ) 2 ) = V ( T n ) + b 2 avec b le biais de T n comme estimateur de θ .

Donc pour améliorer un estimateur,on peut diminuer sont biais, ou sa variance.

Exemple

Dans la suite de lancers Pile/Face ,

Estimation de l'espérance

Pour une variable X ayant une espérance m et ( X 1 , ˙ \dots , X n ) un n -échantillon de variables, l'espérance de X peut être estimée par la moyenne empirique : X n = i = 1 n X i n

Exercice :

  1. Montrer que X n est un estimateur sans biais de m .

  2. On suppose de plus que X a une variance

    Montrer qu'alors le risque quadratique de X n tend vers 0 quand n tend vers +

Exemple

Pour estimer le paramètre d'une loi binomiale, d'une loi de Poisson ou d'une loi Normale 𝒩 ( m , ν ) : le paramètre est la moyenne.

On peut donc estimer ce paramètre par la moyenne empirique avec un risque quadratique qui tend vers 0 quand n tend vers l'infini.

Règles de calculs

E ( i = 1 n X i ) = i = 1 n E ( X i ) et E ( α X ) = α E ( X ) si α est une constante.

E ( X Y ) = E ( X ) E ( Y ) si X et Y sont indépendantes.

V ( i = 1 n X i ) = i = 1 n V ( X i ) si les ( X i ) ssont indépendantes.

V ( α X + β ) = α 2 V ( X ) si α et β sont une constante

Intervalle de confiance.

Définition

Soit X une variable aléatoire de loi ( θ ) et ( X 1 \dots X n ) un n -échantillon de variables.

Soient U n et V n fonctions de cet échantillon

[ U n , V n ] est un intervalle de confiance de θ de au niveau de confiance 1 α (ou de niveau de risque α ) si P ( U n θ V n ) 1 α

Très souvent, on prendra un intervalle centré autour d'un estimateur de θ

Inégalité de Bienaymé-Tchebichev

P ( | X m | ϵ ) V ( X ) ϵ 2 donc P ( | X m | < ϵ ) 1 V ( X ) ϵ 2 et P ( X ϵ m X + ϵ ) 1 V ( X ) ϵ 2

Convergence : théorème de la limite centrée.

Si ( X 1 \dots X n ) est un n -échantillon de variables indépendantes indépendants et de même loi que X ayant une espérance et une variance alors la loi de la moyenne empirique centrée réduite, ou de la somme centrée réduite converge en loi vers 𝒩 ( 0 , 1 ) (peut être approchée par cette loi)

Ce qui se ramène à dire que la loi de X n peut être approchée par 𝒩 ( m , ν n ) (cf exercice)

Ou qu'une loi ( n , p ) peut être approchée par 𝒩 ( n p , n p q ) (condition : n 30 et n p 15 et n p q 5 dans la littérature)

Exercice

Déterminer une valeur approchée de la loi de la moyenne empirique :
E ( X n ) = E ( X ) , V ( X n ) = 1 n V ( X ) donc X n 𝒩 ( E ( X ) , 1 n V ( X ) )

Loi Normale

Donc P ( X t m X + t ) 1 α 2 Φ ( t σ ) 1 1 α Φ ( t σ ) 1 α / 2

Exemple :

pour α = 0 , 05 (risque de 5%) on trouve Φ ( 1 , 96 ) = 0,975 = 1 0 , 05 / 2 donc pour t σ = 1 , 96 on a le risque voulu et P ( X 1 , 96 σ m X + 1 , 96 σ ) 0 , 95 ... utilisable si on a la valeur de l'écart type (sinon, pratiquement, on en prend une estimation).


Exercices

Variance

Soit X ayant une espérance m et une variance v , sa variance empirique est W n = 1 n X i 2 X n 2 avec X n la moyenne empirique de X et 1 n X i 2 la moyenne empirique de X 2 .

  1. Soit Y ayant une espérance et une variance. Calculer E ( Y 2 ) en fonction E ( Y ) et V ( Y )

  2. Calculer E ( X n ) et V ( X n ) et en déduire E ( X n 2 )

  3. Montrer enfin que E ( W n ) = n 1 n V ( X ) et en déduire un estimateur sans biais de la variance.

Question confidentielle.

Certains sujets abordés dans les enquêtes d'opinion sont parfois assez intimes, et on court le risque que les personnes interrogées se refusent à répondre franchement à l'enquêteur, faussant ainsi le résultat.

On peut alors avoir recours à une astuce consistant à inverser aléatoirement les réponses .

Considérons une question confidentielle pour laquelle on veut estimer la probabilité p de réponses positives.

L'enquêteur demande à chaque personne interrogée de lancer un dé.

Si l'enquêteur ignore le résultat du dé, il ne pourra pas savoir si la réponse est franche ou non, et on peut espérer que la personne sondée acceptera de jouer le jeu.

Généralisons légèrement la situation en tirant pour chaque personne une variable de Bernoulli de paramètre α . ( α = 1 6 dans l'exemple introductif)

Soit n le nombre de personnes interrogées.

L'enquêteur ne recueille que la fréquence empirique F n des ``oui''.

  1. Montrer que la probabilité de ``oui'' à l'issue de la procédure est q = α p + ( 1 α ) ( 1 p )

  2. Montrer que F n , la fréquence observée par l'enquêteur, est un estimateur sans biais de q et de risque quadratique tendant vers 0 quand n tend vers +

  3. Pour α 1 / 2 exprimer p en en fonction de q .

  4. En déduire que T n = F n 1 + α 2 α 1 est un estimateur sans biais de p dont le risque quadratique tend vers 0 quand n tend vers + .

  5. Pour n fixé, quelle valeur attribuer à α pour que le risque quadratique soit minimum ? Est-ce acceptable ?

    Pour quelle valeur de α ce risque est-il maximum ?

    Quel sera le risque quadratique avec le dé ( α = 1 / 6 )

Loi uniforme

Soit X de loi 𝒰 [ 0 , a ] et ( X 1 , \dots X n ) une n -échantillon de variables. Estimation de a :

X a une espérance de a / 2. Soit X n la moyenne empirique.

  1. Soit T n = 2 X n . Montrer que T n est sans biais et déterminer son risque quadratique

  2. Soit T n = max ( X 1 , \dots , X n )

    Déterminer la fonction de répartition de X puis celle de T n

    En déduire sa densité puis son biais et son risque quadratique.

  3. Soit T n = n + 1 n T n déterminer son biais et son risque quadratique.

  4. Quel est le meilleur estimateur de a pour de grandes valeurs de n ?

Intervalle de confiance pour le paramètre d'une variable de Bernoulli.

Lors d'un sondage sur 100 personnes interrogée, 60 pensent voter pour A

On modélise le choix par un échantillon ( X 1 , \dots , X 1 0 0 ) de variable indépendantes de même loi de Bernouilli de paramètre p .

On cherche à déterminer un intervalle de confiance pour p au niveau de confiance 99% (1% de risque)

  1. Déterminer l'espérance et la variance de la fréquence empirique F = 1 100 i = 1 100 X i ?

  2. On note F * la fréquence empirique centrée réduite.

    Par quelle loi peut on approcher celle de F * ? On suppose désormais que F * suit 𝒩 ( 0 , 1 )

  3. Déterminer t tel que P ( t F * t ) 0 , 99 et en déduire que P ( F t p ( 1 p ) 10 p F + t p ( 1 p ) 10 ) 0 , 99

  4. Montrer que pour tout p [ 0 , 1 ] , p ( 1 p ) 1 4 et en déduire que [ F t / 20 ; F + t / 20 ] est un intervalle de confiance de p au niveau de confiance 99%

Intervalle de confiance par Bienaymé-Tchebichev

Soit a [ 0 ; 2 3 ] , X 𝒰 [ 0 , a ] et ( X 1 \dots X n ) un n -échantillon de variables de même loi que X et indépendantes.

On cherche un intervalle de confiance de a 2 au niveau de confiance 99% (niveau de risque 1%).

On note X n la moyenne empirique

  1. Rappeler la moyenne m de X et montrer que V ( X ) = a 2 12 . En déduire la moyenne et l'espérance de X n .

  2. En déduire que P ( | X n a 2 | > 0 , 1 ) 100 n

  3. Déterminer enfin n pour que [ X n 0 , 1 ; X n + 0 , 1 ] soit un intervalle de confiance de a 2 au niveau de confiance 99%

  4. Ecrire un programme PASCAL qui

    Le programme a affiché 0,534.

  5. dans la sutie, n = 10000. Par quelle loi peut-on approcher celle de X n * (centrée réduite) ?

  6. Déterminer t pour que P ( t 12 a 100 ( X n a 2 ) < t ) 0 , 99 et en déduire un autre intervalle de confiance de a 2 au niveau α

Comptage par capture et recapture

On cherche à évaluer le nombre N de poissons dans un étang.

Pour cela, on prélève dans l'étang m poissons que l'on bague avant les remettre dans l'étang.

On propose deux méthodes différentes d'estimation de N .




Méthode 1
Soit n * , n m .
On prélève des poissons dans l'étang, au hasard et avec remise.
On note X n la variable aléatoire égale au nombre de poissons qu'il a été nécessaire de pêcher pour obtenir n poissons marqués.
Pour tout i [ 2 , n ] , on pose D i = X i X i 1 . On pose D 1 = X 1 et on suppose que les D i sont des variables indépendantes.

    1. Pour tout i [ 2 , n ] , quelle est la signification de D i ?

    2. Déterminer, pour i [ 2 , n ] , la loi de D i , son espérance et sa variance.
      En déduire l'espérance et la variance de X n .

    3. On pose A n = m n X n . Montrer que A n est un estimateur sans biais de N et déterminer son risque quadratique.

    1. Pour n assez grand, par quelle loi peut-on approcher la loi de la variable aléatoire X n * (centrée réduite) ?

    2. On a marqué 200 poissons puis effectué 450 prélèvements pour obtenir 50 poissons marqués.
      On pose σ = σ ( A n ) . On a pu prouver par ailleurs que σ 100 .
      Déterminer en fonction de σ , un intervalle de confiance pour N au seuil 0.9
      (On donne Φ ( 1 , 64 ) 0 , 95 ) .




Méthode 2
On prélève successivement et avec remise n poissons. Soit Y n le nombre de poissons marqués parmi eux.

  1. Montrer que 1 n m Y n est un estimateur sans biais de 1 N .

  2. Pour quelle raison évidente ne peut-on pas prendre n m Y n comme estimateur de N ?
    On pose alors B n = m ( n + 1 ) Y n + 1

    1. Calculer l'espérance de B n (on montrera que 1 k + 1 ( n k ) = 1 n + 1 ( n + 1 k + 1 )

    2. Est-il un estimateur sans biais de N ?