Cours de probabilités discrètes

par Pierre Veuillez

Probabilités

Vocabulaire

Evénements

Dans une expérience aléatoire, on obtient des résultats élémentaires.

Ces résultats élémentaires sont intéressants à connaître quand ils jouent tous le même rôle dans l'expérience : quand ils sont équiprobables.

L'ensemble des résultats élémentaires est appelé univers et noté la plupart du temps Ω .

Avec plusieurs résultats élémentaires on forme des événements.

Ω est appelé événement certain.

Son contraire est noté et appelé événement impossible.

Des événements sont incompatibles (deux à deux) ou disjoints s'ils ne peuvent se produire simultanément. Si l'un est réalisé, aucun des autres ne peut l'être.

Attention

Ne pas confondre incompatibles (l'un empêche l'autre) et indépendants (l'un n'influe pas sur l'autre)

Opérations

On peut faire certaines opérations sur les événements :

La négation (ou contraire) A ¯ est réalisé si et seulement si A ne l'est pas. Le contraire de noir n'est pas blanc.

La réunion symbole qui est la traduction du ou inclusif (l'un ou l'autre ou les deux), de au moins voir même de certains et comme : on peut gagner si l'on a blanc et si l'on a noir ...

L'intersection symbole qui est la traduction de et, de tous, de jamais, de aucun, de à la fois...

La différence A \ B est formé des résultats qui sont dans A sans être dans B : A \ B = A ( B ¯ )

Un système complet d'événements ou parition de l'univers est une famille d'événements, finie ou dénombrable (indiciable par les entiers) ( A i ) i I telle qu'un et un seul de ces événements est réalisé à chaque fois (ils sont incompatibles (deux à deux) et leur réunion est l'événement certain : on est certain que l'un au moins est réalisé)

Un événement est presque sûr si sa probabilité vaut 1.

Un événement est négligeable si sa probabilité vaut 0.

Attention

Un événement ne peut pas être conditionné : on a envie de conditionner parce que la réalisation de A dépend de de celle de B .

C'est probablement ( A B ) qu'il faut écrire. Le conditionnement apparaît alors tout naturellement lorsque l'on calcule la probabilité via la formule des probabilité composées : P ( A B ) = P B ( A ) P ( B )

Cadre théorique

Pour aller (beaucoup) plus loin dans l'étude des probabilité on doit préciser la nature mathématique des objets sur lesquels on travaillait naïvement.

L'univers modélise l'ensemble des résultats possibles. C'est un ensemble et c'est tout. On le note Ω . C'est l'événement certain

Une tribu de Ω sera l'ensemble des événements. On devra pouvoir faire avec ces événements les opérations nécessaires et trouver comme résultat un événement : réunion, contraire et intersection.

Tribu

𝒯 est une tribu de Ω si

( 𝒯 , Ω ) est appelé espace probabilisable

On définit alors la probabilité qui respecte les propriétés de la fréquence statistique.

Probabilité

Soit ( 𝒯 , Ω ) un espace probabilisable et P une application de 𝒯 dans + ( P ( A ) doit être défini pour tout événement A et être positive). P est une probabilité sur ( 𝒯 , Ω ) si

Conséquences

On en déduit :

Les propriétés

Evénements

Il y a quelques traductions à savoir faire :

Le contraire de ''tous sont'' c'est ''au moins un n'est pas'' ( i I A i = i I A i )

Le contraire de ''au moins un est '' c'est ''aucun n'est''

Si A est réalisé alors B est réalisé se traduit par A B ; on a alors P ( A ) P ( B )

Probabilité

une probabilité est toujours comprise entre 0 et 1

P ( ) = 0 , P ( Ω ) = 1 , P ( A ¯ ) = 1 P ( A )

Si A et B sont incompatibles alors P ( A B ) = P ( A ) + P ( B )

Si ( A i ) i est une famille d'événements incompatibles alors la série i P ( A i ) converge et P ( i = 0 + A i ) = i = 0 + P ( A i )

Si ( A i ) i est une famille croissante (i.e. que i A i A i + 1 ; par exemple A i = ''avoir au moins un pile lors des i premiers lancers'') alors :
P ( i = 0 + A i ) = lim n + P ( A n )

Et si ( A i ) i est une famille décroissante (i.e. que i A i + 1 A i ; par exemple A i = ''n'avoir que des piles lors des i premiers lancers'') alors :
P ( i = 0 + A i ) = lim n + P ( A n )

Si ( A i ) i est une famille quelconque, P ( i = 0 + A i ) = lim n + P ( i = 0 n A i )

P ( A \ B ) = P ( A ) P ( A B )

Si ( A i ) i est une famille quelconque, P ( i = 0 + A i ) = lim n + P ( i = 0 n A i )

Equiprobabilité

Quand tous les résultats élémentaires jouent le même rôle, sont équiprobables, on modélise par la probabilité équiprobable : P ( A ) = | A | | Ω |

Par exemple, on fait 10 tirages sans remise dans une urne. Si l'on ne sait rien sur les résultats précédents, à chaque tirage toutes les boules seront équiprobables (bien que le contenu de l'urne change à chaque fois)

Au contraire si l'on tire dans une urne ou une autre, sachant dans quelle urne on tire, les boules de cette urne seront équiprobables. C'est ici la probabilité conditionnelle qui sera la probabilité équiprobable.

Probabilité conditionnelle, indépendance

Probabilité conditionnelle

On définit la probabilité conditionnelle de A sachant B et on note P B ( A ) ou P B ( A ) = P ( A B ) P ( B ) (notée autrefois P ( A / B ) ). Cela conduit à la formule de Bayes.

Mais pour la calculer, c'est la plupart du temps : la probabilité que l'on a quand on sait que B est réalisé (si la réalisation de B permet de connaître les conditions expérimentales)

La probabilité conditionnelle est la probabilité qui correspond à la fréquence statistique quand on restreint a priori l'ensemble des possibles.

La probabilité conditionnelle intervient naturellement dans la calcul de la probabilité d'une intersection et dans la formule des probabilités totales :

Indépendance :

Deux événements A et B sont indépendants si P ( A B ) = P ( A ) P ( B ) . ( ce qui peut s'écrire P B ( A ) = P ( A ) si P ( B ) 0 ou P A ( B ) = P ( B ) si P ( A ) 0 ) .

Une famille ( A i ) i I d'événements est indépendante si, quand on en prend n'importe quelle sous-famille finie, la probabilité de leur intersection est le produit de leurs probabilités.

Cette définition est la modélisation du fait que la réalisation de l'un des événements ne change pas, n'influe pas, sur la probabilité de réalisation de l'autre.

La plupart du temps, l'indépendance viendra des conditions expérimentales. (soit explicitement, soit implicitement)

Exemples

les exemple type sont :

Variables aléatoires

Les variables aléatoires donnent une valeur pour chaque résultat d'une expérience aléatoire.

C'est une application de l'ensemble des résultats ( Ω ) dans

On note ( X = a ) l'ensemble des résultas ω pour lesquels X ( ω ) = a , de même b < X a \dots

Et on doit pouvoir définir la probabilité de X < a qui doit donc être un événement. (ce qui n'est pas toujours vrai pour des univers infinis)

Attention

Une variable aléatoire n'est pas un événement. Si on écrit P ( X ) on est certain de se tromper

Pour fabriquer un événement, il faut comparer la variable à autre chose ( X < x ; X = Y \dots )

Par contre, on peut faire des opérations avec des variables aléatoires pour en fabriquer de nouvelles.

Cadre théorique

Définition

X est une variable aléatoire sur un espace probabilisable ( Ω , 𝒯 ) si X est une application définie sur Ω et si pour tout réel a , ( X a ) apparient à la tribu (est un événement)

Loi et fonction de répartition

Définition

pour une variable aléatoire discrète, la loi de X est la donnée de l'ensemble des valeurs possibles de X , X ( Ω ) , et la probabilité que X prenne chacune de ces valeurs.

Cela peut être donné par une ou plusieurs formules, ou bien les valeurs peuvent être énumérées dans un tableau.

Caractérisation

la loi d'une variable aléatoire discrète est caractérisée par le fait que chacune des probabilités est positive ou nulle et la somme des probabilités (ou la somme de la série des probabilité dans le cas discret infini) est égal à 1.

Fonction de répartition

La fonction de répartition F d'une variable aléatoire X est définie par F ( x ) = P ( X x ) pour tout réel x .

On peut retrouver la loi à partir de la fonction de répartition : si X prend les valeurs x 1 < x 2 < \dots < x n alors P ( X = x k ) = P ( X x k ) P ( X < x k ) = P ( X x k ) P ( X x k 1 )  si  k 1 1

La première valeur X = x 1 joue un rôle particulier et est à traiter a-priori à part. On peut souvent la réintégrer a-posteriori dans la formule générale.

Et on peut retrouver la fonction de répartition à partir de la loi : si x k x < x k + 1 alors F ( x ) = P ( X x ) = P ( X x k ) = i = 1 k P ( X = x i )

La fonction de répartition est plus facile à obtenir que la loi quand on cherche la loi du maximum de plusieurs variables aléatoires.

Dire que ''le plus grand est inférieur à x '' signifie que ''tous sont inférieurs à x ''.

Espérance et variance

Définition

L'espérance d'une variable aléatoire qui ne prend qu'un nombre fini de valeur est :
E ( X ) = k X ( Ω ) k P ( X = k )

Si X prend un nombre infini dénombrable de valeur, X n'a une espérance que si la série k X ( Ω ) k P ( X = k ) est absolument convergente. L'espérance de X est alors la somme de la série (sans valeur absolue)

La variance de X est V ( X ) = E [ ( X E ( X ) ) 2 ] = E ( X 2 ) E ( X ) 2

Attention

Quand la loi de X est donnée par plusieurs formules, il faut décomposer la somme pour pouvoir substituer la formule à P ( X = k )

Calculs

Pour calculer l'espérance d'une variable Y ''fabriquée'' à partir d'une autre X , il n'est pas utile de chercher d'abord la loi de Y :

Couple de variables

On peut considérer simultanément deux -ou plus- variables aléatoires.

Loi

la loi du couple ( X , Y ) est la donnée des valeurs possibles de X et de Y et pour chacune des valeurs x de X et y de Y la donnée de la probabilité P ( X = x Y = y ) (qui peut se calculer par dénombrement dans le cas équiprobable, par transformation de l'écriture, par les probabilités composées...)

Elle peut être donnée par une (ou des) formules ou par l'énumération (dans un tableau à double entrée) de toutes les valeurs possibles.

Opérations

Des événements (ou des variables aléatoires) sont souvent définis à partir de deux (ou plus) variables aléatoires. Pour en calculer la probabilité, il faut alors se ramener à la loi de chacune des variable, en décomposant les événements.

Les classiques

( X = Y ) = i I ( X = i Y = i ) l'ensemble I étant déterminé par la double contrainte que ( X = i ) et ( Y = i ) soient simultanément possibles.

( X + Y = k ) = i I ( X = i Y = k i ) avec comme contraintes : i X ( Ω ) et k i Y ( Ω )

( X Y ) = i I ( X = i Y i ) avec i X ( Ω ) et k i Y ( Ω )

N.B.

Une autre démarche consiste à passer par la formule des probabilités totales en analysant ainsi :
La réalisation dépend de la valeur prise par X d'où l'utilisation de la formule des probabilités totales avec ( X = i ) i I comme système complet d'événements :
P ( X = Y ) = i I P X = i ( X = Y ) P ( X = i )
le conditionnement étant ensuite interprété P ( X = Y ) = i I P X = i ( Y = i ) P ( X = i )
et enfin, si X et Y sont indépendantes, on peut supprimer le conditionnement P ( X = Y ) = i I P ( Y = i ) P ( X = i )

Lois usuelles

Quand on a envie d'utiliser une loi usuelle mais que le paramètre qui devrait être un réel est une variable aléatoire,

(par exemple N le rang du premier pile. On relance N fois la pièce. X le nombre de pile obtenus)

on obtient d'abord la loi conditionnelle et ensuite la loi par les probabilités totales.

loi uniforme sur [[1,n]]

Modèle

on tire au hasard un nombre entier dans l'intervalle [ [ 1 , n ] ] . Ces nombres sont donc équiprobables. On note X le résultat (résultat d'un dé ou d'une boule numérotée dans une urne)

Définition

X suit une loi uniforme sur [ [ 1 , n ] ] si X ( Ω ) = [ [ a , b ] ] et si pour tout k [ [ 1 , n ] ] , p ( X = k ) = 1 n

L'espérance de X est alors E ( X ) = n + 1 2 et V ( X ) = n 2 1 12

Loi de Bernouilli

Modèle

Elle compte le nombre de succès en une seule expérience (donc 0 ou 1).

Elle vaut 1 en cas de succès et 0 en cas d'échec.

Elles sont utiles à plusieurs : si X k indique le succès lors de la k i e ` m e expérience, k X k compte le nombre total de succès.

Définition

X suit une loi de Bernouilli de paramêtre p si X ( Ω ) = { 0 , 1 } avec P ( X = 1 ) = p

On a alors E ( X ) = p et V ( X ) = p ( 1 p )

Loi hypergéométrique

Modèle

tirages successifs sans remises ou tirages simultanés parmi des bons et des mauvais. N le nombre total d'éléments, n le nombre d'éléments prélevés et p la proportion de bons. On note X le nombre de bons éléments prélevés.

Définition

X suit une loi hypergéométrique de paramètres N , n et p si : on note a = p N (nombre de bons éléments) et b = ( 1 p ) N (nombre de mauvais éléments) P ( X = k ) = ( a k ) ( b n k ) ( N n )

avec X ( Ω ) = [ [ max ( 0 , n b ) ; min ( a , n ) ] ]

(La formule reste vraie en dehors de cet intervalle, les probabilités étant simplement nulles)

On a E ( X ) = n p

Loi binomiale

Modèle

C'est la loi du nombre de succès en n expériences indépendantes qui ont toutes la même probabilité p de succès.

Définition

X suit une loi binomiale si X ( Ω ) = [ [ 0 ; n ] ] et pour tout entier k [ [ 0 ; n ] ] : P ( X = k ) = ( n k ) p k ( 1 p ) n k

On a alors E ( X ) = n p et V ( X ) = n p ( 1 p )

Somme

une somme de variable aléatoires indépendantes suivants des lois binomiales de même probabilité de succès en est encore une de même paramètre de succès et de premier paramètre (nombre d'expérience) la somme de leurs premiers paramètres.

Loi géométrique

Modèle

C'est la loi du rang du premier succès dans une suite (infinie) d'expériences indépendantes qui ont toutes la même probabilité p de succès.

S'y ramène

le cas où l'on fait des expériences jusqu'au succès et que X est le rang du premier succès (les tirages ne sont plus indépendants car dès le succès l'expérience s'arrête)

Si le fait de continuer ensuite l'expérience ne change pas le rang du premier succès, et que l'on a alors les conditions d'une loi géométrique, alors X suivra également une loi géométrique.

Définition

X suit une loi géométrique si X ( Ω ) = [ [ 1 ; + [ [ et pour tout entier k [ [ 1 ; + [ [ : P ( X = k ) = ( 1 p ) k 1 p

On a alors E ( X ) = 1 p et V ( X ) = ( 1 p ) p 2

Loi de Poisson

Modèle

Ce n'est pas une loi que l'on rencontre directement. Mais c'est une loi qui approche la loi Binomiale B ( n , p ) quand n tend vers + mais que le produit n p reste constant = α (ou tend vers cette constante)

C'est la loi qui (empiriquement) modélise bien les fréquentations (nombre de clients à une caisse dans une journée, nombre d'élèves en ECE1 une année donnée ...)

Définition

X suit une loi de Poisson de paramètre α si X ( Ω ) = et pour tout entier k : P ( X = k ) = α k e α k !

On a alors E ( X ) = α et V ( X ) = α

Somme

une somme de variable aléatoires indépendantes suivants des lois de Poisson en est encore une de paramètre la somme des paramètres


Couple de variables

Lois marginales

On peut retrouver les lois de X et de Y à partir de la loi du couple : P ( X = x ) = y Y ( Ω ) P ( X = x Y = y ) dans le cas d'un nombre infini de valeurs pour Y , la série est convergente et P ( X = x ) est la somme de la série.

Attention

Quand la loi du couple est donnée par plusieurs formules, il faut décomposer la somme pour pouvoir substituer.

Espérance

Si f est une application qui à un couple de réel ( x , y ) associe f ( x , y ) , définie sur X ( Ω ) × Y ( Ω ) alors E ( f ( X , Y ) ) = x X ( Ω ) y Y ( Ω ) f ( x , y ) P ( X = x Y = y )

On a en particulier pour le calcul de la covariance : E ( X Y ) = x X ( Ω ) y Y ( Ω ) x y P ( X = x Y = y )

Elle permet aussi d'obtenir, si X et Y sont deux variables aléatoires E ( X + Y ) = E ( X ) + E ( Y )

Et si X et Y sont indépendantes, E ( X Y ) = E ( X ) E ( Y )

Covariance

Outre les lois marginales, l'intérêt des couples de variables aléatoires et de pouvoir calculer la variance d'une somme via la covariance.

La covariance est C o v ( X , Y ) = E [ ( X E ( X ) ) ( Y E ( Y ) ) ] = E ( X Y ) E ( X ) E ( Y ) (dans le cas discret infini, elle existe si les espérances existent et donc si les séries sont absolument convergentes)

Cette covariance se comporte bien avec la somme et le produit par des constantes :
C o v ( a X + b , c Y + d ) = a c C o v ( X , Y )

Si X et Y sont indépendantes alors C o v ( X , Y ) = 0. la réciproque est fausse.

Variance

C'est LA formule pour la variance d'une somme V ( X + Y ) = V ( X ) + V ( Y ) + 2 C o v ( X , Y ) (c'est la formule du binôme ou le carré est remplacé par la variance et le produit par la covariance)

et plus généralement pour une somme de n variables aléatoires : V ( i = 1 n X i ) = i = 1 n V ( X i ) + i = 1 n j i n C o v ( X i , X j )