Sur la loi hypergéométrique
- Écrit par : Begyn Arnaud
Thèmes: Variables aléatoires - Loi - Moments - Indépendance - Covariance - Convergence en loi
On dit qu'une variable aléatoire $X$ suit la loi hypergéométrique de paramètres $n\in\mathbb{N}^*$, $N\in\mathbb{N}^*$ et $p\in]0,1[$, avec $n\leq N$ et $Np\in\mathbb{N}$ (ces conditions paraîtront naturelles une fois vue la modélisation), lorsque:
$$X(\Omega)\subseteq[\![ 0;n]\!]\qquad\hbox{et}\qquad \forall k\in[\![0;n]\!], \; \mathbb{P}(X=k) = \frac{\binom{Np}{k}\binom{Nq}{n-k}}{\binom{N}{n}}$$
où $q=1-p$ vérifie ausi $Nq=N-Np\in\mathbb{N}$, et avec la convention $\binom{j}{i}=0$ si $i\notin [\![0;j]\!]$.
On le note $X\hookrightarrow\mathcal{H}(N,n,p)$.
- Remarque. A prori $X(\Omega)$ n'est pas égal à $[\![0;n]\!]$, ceci ne pose pas de problème, car dans la définition $\mathbb{P}(X=k)=0$ pour certaines valeurs de
$k$, graĉe à la convention habituelle sur les coefficients binomiaux. D'ailleurs, on pourrait aussi supposer que
$$X(\Omega)\subseteq \mathbb{Z} \qquad\hbox{et}\qquad \forall k\in \mathbb{Z}, \; \mathbb{P}(X=k) = \frac{\binom{Np}{k}\binom{Nq}{n-k}}{\binom{N}{n}}$$
Nous préciserons dans la modélisation $X(\Omega)$, mais en pratique cela n'a pas d'intérêt.
- Formule de Van der Monde. On peut en déduire la formule de Van der Monde, en posant $N=a+b$ et $p=\displaystyle \frac{a}{a+b}$ avec $(a,b)\in\big(\mathbb{N}^*\big)^2$.
En effet si $X\hookrightarrow\mathcal{H}\left(a+b,n,\displaystyle\frac{a}{a+b}\right)$, la propriété $\displaystyle \sum_{k=0}^n\mathbb{P}(X=k)=1$ donne $\displaystyle \binom{n}{a+b}= \sum_{k=0}^n\binom{a}{k}\binom{b}{n-k}$.
- Modélisation1. On considère une urne de $N\in\mathbb{N}^*$ boules dont $N_1\in\mathbb{N}^*$ blanches et $N_2\in\mathbb{N}^*$ noires, avec $N=N_1+N_2$.
On effectue un tirage simultané de $n$ boules et on note $X$ le nombre de boules blanches obtenues. Alors $X\hookrightarrow\mathcal{H}(N,n,p)$ où $p=\displaystyle \frac{N_1}{N}$ est la proportion de boules blanches dans l'urne.
Preuve: Il est clair que $X(\Omega)\subseteq[\![ 0;n]\!]$.
D'autre part, pour $k\in[\![ 0;n]\!]$ fixé, l'évènement $[X=k]$ correspond à l'évènement "on a obtenu $k$ blanches". Un simple calcul de dénombrement donne:
\begin{equation*} \mathbb{P}(X=k) = \frac{ \binom{N_1}{k} \binom{N_2}{n-k} }{ \binom{N}{n} } =\frac{ \binom{Np}{k} \binom{Nq}{n-k} }{ \binom{N}{n} } \end{equation*}
puisque $N_2=N-N_1=N-Np=Nq$.
- Remarque. Les conditions $n\leq N$ (on ne peut pas tirer simultanément, plus de boules qu'il n'y en a dans l'urne) et $Np\in\mathbb{N}$ ($p$ est la proportion
d'une des deux couleurs dans l'urne) paraissent ici naturelles!
On est aussi en mesure de déterminer précisément $X(\Omega)$.
Au minimum, on ne tire aucune boule blanche, mais ceci n'est possible que si on a obtenu $n$ noires. Comme celles-ci sont au nombre de $N_2$, il n'est en fait pas possible d'en tirer $n$ lorssque $n>N_2$. Dans ce cas on obtient au minimum $n-N_2$ blanches.
Au maximum, on ne tire que des boules blanches, mais comme celles-ci sont au nombre de $N_1$, ce ne sera pas possible si $n>N_1$. Dans ce cas on obtient au maximum $N_1$ blanches.
Ainsi $X(\Omega)=[\![\min(0,n-N_2);\max(n,N_1)]\!]$ (un peu compliqué à utiliser en pratique!).
- Modélisation2. On reprend la même urne (et les mêmes notations). On tire encore une fois $n$ boules mais cette fois les tirages se font une par une et sans remise.
On note $X$ le nombre de boules blanches obtenues. Alors $X\hookrightarrow\mathcal{H}(N,n,p)$ où $p=\displaystyle \frac{N_1}{N}$ est la proportion de boules blanches dans l'urne.
Preuve: Il est clair que $X(\Omega)\subseteq[\![ 0;n]\!]$.
D'autre part, pour $k\in[\![ 0;n]\!]$ fixé, l'évènement $[X=k]$ correspond à l'évènement "on a obtenu $k$ blanches". Un calcul de dénombrement donne:
$$\mathbb{P}(X=k)=\frac{\binom{n}{k}A_{N_1}^{k}A_{N_2}^{n-k}}{A_{N}^{n}}$$
soit après simplifications des arrangements en combinaisons:
$$\mathbb{P}(X=k)=\frac{\binom{N_1}{k}\binom{N_2}{n-k}}{\binom{N}{n}}=\frac{\binom{Np}{k}\binom{Nq}{n-k}}{\binom{N}{n}}$$
- Remarque1. On vient donc de démontrer que les calculs de probabilités donnent les mêmes résultats, que les tirages soient faits simultanément ou sans remise,
ce qui est remarquable. Mais attention, ceci est faux pour les calculs de dénombrement!
- Remarque2. Et si les tirages sont effectuées avec remise? La réponse est bien connue: $X\hookrightarrow\mathcal{B}(n,p)$.
- Espérance. On a $\mathbb{E}(X)=np$.
Preuve: Par définition $\mathbb{E}(X)=\displaystyle\sum_{k=0}^n k \frac{\binom{Np}{k}\binom{Nq}{n-k}}{\binom{N}{n}}$. Comme $k\binom{n}{k}=n\binom{n-1}{k-1}$, pour $k\neq0$, on a:
$$ \mathbb{E}(X)=0+ \frac{Np}{\binom{N}{n}} \sum_{k=1}^n \binom{Np-1}{k-1} \binom{Nq}{n-k}= \frac{Np}{\binom{N}{n}} \sum_{k=0}^{n-1} \binom{Np-1}{k} \binom{Nq}{(n-1)-k} = \frac{Np}{\binom{N}{n}} \binom{Np+Nq-1}{n-1} = Np\frac{n}{N}=np $$
grâce au changement d'indice $k'=k-1$ et à la formule de Van der Monde.
- Variance. On a $V(X)=\displaystyle np(1-p)\frac{N-n}{n-1}$.
Preuve1: Méthode habituelle par le théorème de transfert.
Par le théorème de transfert $\mathbb{E}\big(X(X-1)\big)=\displaystyle \frac{1}{\binom{N}{n}} \sum_{k=0}^n k(k-1) \binom{Np}{k} \binom{Nq}{n-k}$. Or $k(k-1)\binom{N_1}{k}=N_1(N_1-1)\binom{N_1-2}{k-2}$, pour $k\neq0$ et $k\neq 1$, donc en procédant de même que ci-dessus, on obtient $\mathbb{E}\big(X(X-1)\big)=\displaystyle \frac{np(n-1)(Np-1)}{N-1}$.
D'autre part, par linéarité de l'espérance: $\mathbb{E}\big(X(X-1)\big)=\mathbb{E}\big(X^2\big)-\mathbb{E}(X)$. On a donc montré que $\mathbb{E}\big(X^2\big)=\displaystyle \frac{np(n-1)(Np-1)}{N-1}+np$.
La formule de Koenig-Huyghens donne alors que:
$$ V(X)=\mathbb{E}\big(X^2\big)-\big(\mathbb{E}X\big)^2=\frac{np}{N-1}\big[(Np-1)(n-1)+(1-np)(N-1)\big]=np(1-p)\frac{N-n}{n-1} $$
On se place dans le cadre de la modélisation1 (tirage simultané), et on ajoute l'hypothèse que les boules blanches sont numérotées de $1$ à $N_1$.
Pour tout $i\in[\![1;n_1]\!]$, on pose $Y_i$ $=$ $1$ si la boule blanche numéro $i$ a été tirée, et $0$ sinon.
La variable aléatoire $\displaystyle \sum_{i=1}^{N_1} Y_i$ est appellée processus de comptage. Le point clé est de remarquer qu'elle compte le nombre de boules blanches obtenues, et donc elle est égale à $X$!
On sait donc que:
$$V(X)=\sum_{i=1}^n V(Y_i)+2\sum_{1\leq i< j\leq n} \hbox{Cov}(Y_i,Y_j)$$
Etudions tout d'abord la variable $Y_i$, pour $i\in[\![1;N_1]\!]$. Elle suit une loi de Bernoulli de paramètre:
$$\mathbb{P}(Y_i=1)=\mathbb{P}(\hbox{" la boule blanche }i\hbox{ a été tirée "})=\frac{\binom{1}{1}\binom{N-1}{n-1}}{\binom{N}{n}}=\frac{n}{N}$$
et donc $V(Y_i)=\displaystyle\frac{n}{N}\left(1-\frac{n}{N}\right)$.
Etudions ensuite la variable $Y_iY_j$, pour $1\leq i<j\leq n$. On remarque que $(Y_iY_j)(\Omega)=\{0;1\}$ et $[Y_iY_j=1]=[Y_i=1]\cap[Y_j=1]$, donc $Y_iY_j$ suit une loi de Bernoulli de paramètre:
$$\mathbb{P}(Y_iY_j=1)=\mathbb{P}(Y_i=1,Y_j=1)=\mathbb{P}(\hbox{" les boules blanches }i\hbox{ et }j\hbox{ ont été tirées "})=\frac{\binom{1}{1}\binom{1}{1}\binom{N-2}{n-2}}{\binom{N}{n}}=\frac{n(n-1)}{N(N-1)}$$
On en déduit que:
$$\hbox{Cov}(Y_i,Y_j)=\mathbb{E}(Y_iY_j)-\mathbb{E}(Y_i)\mathbb{E}(Y_j)=\frac{n(n-1)}{N(N-1)}-\frac{n^2}{N^2}$$
Attention: les variables $Y_i$ et $Y_j$ ne sont donc pas indépendantes.
En remarquant que $V(Y_i)$ ne dépend pas de $i$, que $\hbox{Cov}(y_i,Y_j)$ ne dépend pas de $(i,j)$, que $\displaystyle \sum_{i=1}^n$ donne $n$ termes et que $\displaystyle \sum_{1\leq i<j\leq n}$ donne $\displaystyle\binom{n}{2}$ termes, on obtient:
$$V(X)=n\frac{n}{N}\left(1-\frac{n}{N}\right)+2\binom{n}{2}\left[\frac{n(n-1)}{N(N-1)}-\frac{n^2}{N^2}\right]$$
et après simplifications (courage!):
$$V(X)=np(1-p)\frac{N-n}{n-1} $$
- Fonction génératrice. Elle est beaucoup trop compliquée! (liée à la fonction hypergéométrique, voir Foata-Fuchs Calcul des probabilités).
- Approximation d'une loi hypergéométrique par une loi binomiale. Pour tout $n\in\mathbb{N}$, on se donne $X_N$ de loi $\mathcal{H}(N,n,p)$.
Alors $\forall k\in[\![0;n]\!]$, $\displaystyle\lim_{N\to+\infty}\mathbb{P}(X_N=k)=\binom{n}{k}p^k(1-p)^{n-k}$.
Autrement dit: $X_N\overset{(\mathcal{L})}{\underset{N\to+\infty}{\longrightarrow}}\mathcal{B}(n,p)$.
Intuitivement cela signifie que, lorsque le nombre de boules dans l'urne est très grand, on approximer des tirages sans remise par des tirages avec remise (qui eux sont indépendants).
Preuve: Soit $k\in[\![0;n]\!]$. Il est classique que $\displaystyle \binom{b}{a}\underset{b\to+\infty}{\sim}\frac{b^a}{a!}$, on en déduit que:
$$\mathbb{P}(X_N=k)\underset{N\to+\infty}{\sim}\frac{\frac{(Np)^k}{k!}\frac{(Nq)^{n-k}}{(n-k)!}}{\frac{N^n}{n!}}=\binom{n}{k}p^k(1-p)^{n-k}$$
- Un lien moins connu entre la loi binomiale et la loi hypergéométrique. Si $X\hookrightarrow\mathcal{B}(n_1,p)$, $Y\hookrightarrow\mathcal{B}(n_2,p)$ et $X$
est indépendante de $Y$, alors la loi de $X$ sachant $X+Y=k$ est la loi $\displaystyle\mathcal{H}\left(n_1+n_2,k,\frac{n_1}{n_1+n_2}\right)$, pour tout $k\in[\![0,n_1+n_2]\!]$.
Rappelons qu'on sait déjà que $X+Y\hookrightarrow\mathcal{B}(n_1+n_2,p)$.
Preuve1: Par modélisation.
Supposons que $X+Y=k$ pour $k\in[\![0,n_1+n_2]\!]$.
Cela signifie que dans un schéma de Bernoulli, $n_1+n_2$ répétitions ont donné $k$ succès.
$X$ correspond alors au nombre de succès obtenus pendant les $n_1$ premières répétitions.
On utlise alors l'analogie suivante: on dispose d'une urne avec $n_1+n_2$ boules, dont $n_1$ blanches et $n_2$ noires et on en tire $k$ sans remise. Dans cette analogie on voit que $X$ correspond au nombre de blanches obtenues.
Ainsi, sachant $X+Y=k$ la loi de $X$ est la loi $\displaystyle \mathcal{H}\left(n_1+n_2,k,\frac{n_1}{n_1+n_2}\right)$.
Preuve2: Par un calcul de loi.
Pour $k\in[\![0,n_1+n_2]\!]$ et $i\in[\![0;n]\!]$, il s'agit de montrer que $\displaystyle \mathbb{P}(X=i\,|\,X+Y=k)=\frac{\binom{n_1}{i}\binom{n_2}{k-i}}{\binom{n_1+n_2}{k}}$.
Or en remarquant que $[X=i]\cap[X+Y=k]=[X=i]\cap[Y=k-i]$ on a grâce à la convention habituelle sur les coefficients binomiaux et l'indépendance de $X$ et $Y$:
$$\mathbb{P}( X=i\,|\,X+Y=k ) = \frac{ \mathbb{P} (X=i,X+Y=k) }{ \mathbb{P} (X+Y=k) } = \frac{ \mathbb{P} (X=i,Y=k-i) }{ \mathbb{P} (X+Y=k) } = \frac{ \mathbb{P}(X=i) \mathbb{P}(Y=k-i) }{ \mathbb{P}(X+Y=k) }$$
donc:
$$ \mathbb{P}(X=i\,|\,X+Y=k) = \frac{ \binom{n_1}{i}p^i(1-p)^{n_1-i} \binom{n_2}{k-i}p^{k-i}(1-p)^{n_2-k+i} }{ \binom{n_1+n_2}{k}p^{k}(1-p)^{n_1+n_2-k} }=\frac{\binom{n_1}{i}\binom{n_2}{k-i}}{\binom{n_1+n_2}{k}} $$
Sur la loi de Bernoulli
- Écrit par : Begyn Arnaud
Thèmes: Variables aléatoires - Loi - Moments - Indépendance - Covariance
On dit qu'une variable aléatoire $X$ suit la loi de Bernoulli de paramètre $p\in]0,1[$, lorsque:
$$X(\Omega)=\{0;1\}\qquad\hbox{avec}\qquad \mathbb{P}(X=1)=p\quad\hbox{et}\quad\mathbb{P}(X=0)=1-p$$
On le note $X\hookrightarrow\mathcal{B}(p)$.
- Modélisation. On considère une expérience aléatoire qui n' a que deux issues possibles: "succès" ou "echec".
On pose $X$ = $1$ si on obtient un succès et $0$ si on obtient un échec. Alors $X\hookrightarrow\mathcal{B}(p)$ où $p=\mathbb{P}("succès")$.
- Espérance et variance. Par définition $\mathbb{E}(X)=1\times p+0\times(1-p)=p=\mathbb{P}(X=1)$.
Par le théorème de transfert $\mathbb{E}\big(X^2\big)=1^2\times p+0^2\times(1-p)=p$, donc d'après la formule de Koenig-Huyghens: $V(X)=p-p^2=p(1-p)$.
- Fonction génératrice. D'après le théorème de transfert: $\forall t\in\mathbb{R}$, $G_X(t)=t^1\times p+t^0\times(1-p)=pt+1-p$.
- Indépendance et covariance. Si $X\hookrightarrow\mathcal{B}(p_1)$ et $Y\hookrightarrow\mathcal{B}(p_2)$:
$$X\hbox{ indépendante de }Y\Longleftrightarrow\hbox{Cov}(X,Y)=0$$
Preuve: $\Rightarrow$ est une propriété générale des variables discrètes finies (et même plus!).
$\Leftarrow$ On suppose que $\hbox{Cov}(X,Y)=0$. On a donc $\mathbb{E}(XY)=\mathbb{E}(X)\mathbb{E}(Y)=p_1p_2=\mathbb{P}(X=1)\mathbb{P}(Y=1)$.
De plus, $X$ et $Y$ sont à valeurs dans $\{0,1\}$, donc il en est de même pour leur produit $XY$. $XY$ suit donc une loi de Bernoulli de paramètre $p_3=\mathbb{P}(XY=1)$.
Mais $[XY=1]=[X=1]\cap[Y=1]$, donc $\mathbb{E}(XY)=p_3=\mathbb{P}(X=1,Y=1)$.
On a donc établi que $\mathbb{P}(X=1,Y=1)=\mathbb{P}(X=1)\mathbb{P}(Y=1)\quad(1)$.
Il reste à montrer que $\mathbb{P}(X=0,Y=1)=\mathbb{P}(X=0)\mathbb{P}(Y=1)\quad(2)$, $\mathbb{P}(X=1,Y=0)=\mathbb{P}(X=1)\mathbb{P}(Y=0)\quad(3)$ et $\mathbb{P}(X=0,Y=0)=\mathbb{P}(X=0)\mathbb{P}(Y=0)\quad(4)$.
Ces égalités se déduisent de $(1)$. En effet pour $(2)$ on remarque que: $[Y=1]=\big([X=0]\cap[Y=1]\big)\cup\big([X=1]\cap[Y=1]\big)$. Les deux parties de l'union étant incompatibles, on a par additivité d'une probabilité: $\mathbb{P}(Y=1)=\mathbb{P}(X=0,Y=1)+\mathbb{P}(X=1,Y=1)$.
On en déduit avec $(1)$ que:
$$\mathbb{P}(X=0,Y=1)=\mathbb{P}(Y=1)-\mathbb{P}(X=1,Y=1)=\mathbb{P}(Y=1)-\mathbb{P}(X=1)\mathbb{P}(Y=1)=\mathbb{P}(Y=1)\big[1-\mathbb{P}(X=1)\big]=\mathbb{P}(Y=1)\mathbb{P}(X=0)$$
puisque le contraire de l'évènement $[X=1]$ est l'évènement $[X=0]$. On a donc établi $(2)$.
$(3)$ se déduit de $(1)$ de la même manière, et $(4)$ se déduit de $(2)$ (par exemple).
On aurait pu aussi raisonner ainsi: d'après $(1)$ les évènements $[X=1]$ et $[Y=1]$ sont indépendants. Or $A$ et $B$ indépendants $\Longrightarrow$ $\overline{A}$ et $B$ indépendants. Comme $\overline{[X=1]}=[X=0]$, on en déduit que $[X=0]$ et $[Y=1]$ sont indépendants, c'est-à-dire que $(2)$ est vérifiée. Par le même argument, on montre ainsi sans calcul que $(3)$ et $(4)$ sont vérifiées.
Sur la loi binomiale
- Écrit par : Begyn Arnaud
Thèmes: Variables aléatoires - Loi - Moments - Indépendance
On dit qu'une variable aléatoire $X$ suit la loi binomiale de paramètres $n\in\mathbb{N}^*$ et $p\in]0,1[$, lorsque:
$$X(\Omega)=[\![ 0;n]\!]\qquad\hbox{et}\qquad \forall k\in[\![0;n]\!],\;\mathbb{P}(X=k)=\binom{n}{k}p^k(1-p)^{n-k}=\binom{n}{k}p^kq^{n-k}$$
On le note $X\hookrightarrow\mathcal{B}(n,p)$.
On remarque que $\mathcal{B}(1,p)=\mathcal{B}(p)$. La loi binomiale est donc une généralisation de la loi de Bernoulli.
- Remarque. Avec la convention $\binom{n}{k}=0$, si $k\notin[\![0;n]\!]$ ($k\in\mathbb{Z}$), on a en fait:
$$\mathbb{P}(X=k)=\binom{n}{k}p^k(1-p)^{n-k}=\binom{n}{k}p^kq^{n-k},\quad \hbox{pour tout } k\in\mathbb{Z}$$
- Formule du binôme de Newton. On peut en déduire la formule du binôme dans le cas particuliers $a>0$ et $b>0$.
En effet si $X\hookrightarrow\mathcal{B}\left(n,\displaystyle\frac{a}{a+b}\right)$, la propriété $\displaystyle \sum_{k=0}^n\mathbb{P}(X=k)=1$ donne $(a+b)^n=\displaystyle \sum_{k=0}^n\binom{n}{k}a^kb^{n-k}$.
- Modélisation. On considère $n$ expériences aléatoires qui n' ont que deux issues possibles, "succès" ou "echec", et qu'elles donnent toutes "succès" avec la même
probabilité $p\in]0,1[$ (la plupart du temps les $n$ expériences sont les mêmes). On réalise ces $n$ expériences une par une, de manières indépendantes (la plupart du temps, on répète $n$ fois la même expérience de manières indépendantes, c'est le schéma de Bernoulli).
On pose $X$ = nombre de succès observés. Alors $X\hookrightarrow\mathcal{B}(n,p)$.
Preuve: Il est clair que $X(\Omega)=[\![ 0;n]\!]$.
D'autre part, pour $k\in[\![ 0;n]\!]$ fixé, l'évènement $[X=k]$ correspond à l'évènement "les $n$ essais donnent $k$ succès et $n-k$ échecs". Si on représente la situation par un arbre binaire à $n$ générations, on doit donc compter les branches qui vérifient cette condition: elles sont au nombre de $\binom{n}{k}$. Ensuite, on remarque que chacune de ces branches est un évènement de probabilité $p^k(1-p)^{n-k}$. On a donc:
$$\mathbb{P}(X=k)=\underset{\displaystyle\binom{n}{k}\hbox{ termes}}{\underbrace{p^k(1-p)^{n-k}+p^k(1-p)^{n-k}+\dots+p^k(1-p)^{n-k}}}=\binom{n}{k}p^k(1-p)^{n-k}$$
- Espérance et variance. On a $\mathbb{E}(X)=np$ et $V(X)=np(1-p)$.
Preuve: Par définition $\mathbb{E}(X)=\displaystyle\sum_{k=0}^nk\binom{n}{k}p^k(1-p)^{n-k}$. Comme $k\binom{n}{k}=n\binom{n-1}{k-1}$, pour $k\neq0$, on a:
$$\mathbb{E}(X)=0+\displaystyle n\sum_{k=1}^n\binom{n-1}{k-1}p^k(1-p)^{n-k}=\displaystyle n\sum_{k=0}^{n-1}\binom{n-1}{k}p^{k+1}(1-p)^{(n-1)-k}=np(p+1-p)^n=np$$
grâce au changement d'indice $k'=k-1$ et à la formule du binôme de Newton.
Par le théorème de transfert $\mathbb{E}\big(X(X-1)\big)=\displaystyle\sum_{k=0}^nk(k-1)\binom{n}{k}p^k(1-p)^{n-k}$. Or $k(k-1)\binom{n}{k}=n(n-1)\binom{n-2}{k-2}$, pour $k\neq0$ et $k\neq 1$, donc en procédant de même que ci-dessus, on obtient $\mathbb{E}\big(X(X-1)\big)=n(n-1)p^2$.
D'autre part, par linéarité de l'espérance: $\mathbb{E}\big(X(X-1)\big)=\mathbb{E}\big(X^2\big)-\mathbb{E}(X)$. On a donc montré que $\mathbb{E}\big(X^2\big)=n(n-1)p^2+np$.
La formule de Koenig-Huyghens donne alors que: $V(X)=\mathbb{E}\big(X^2\big)-\big(\mathbb{E}X\big)^2=n(n-1)p^2+np-(np)^2=np(1-p)$.
- Fonction génératrice. $\forall t\in\mathbb{R}$, $G_X(t)=(pt+1-p)^n$.
Preuve: Pour $t\in\mathbb{R}$ le théorème de transfert et la formule du binôme donnent:
$$G_X(t)=\mathbb{E}\big(t^X\big)=\displaystyle\sum_{k=0}^nt^k\binom{n}{k}p^k(1-p)^{n-k}=(pt+1-p)^n$$
- Somme de variables aléatoires de Bernoulli indépendantes. Soient $X_1$, $X_2$, $\dots$, $x_n$ sont i.i.d. de loi $\mathcal{B}(p)$.
On pose $S=\displaystyle\sum_{i=1}^n X_i$. Alors $S\hookrightarrow\mathcal{B}(n,p)$.
Remarquer que le point crucial est que le paramètre $p$ est le même pour toutes les variables.
Preuve1: En utilisant la modélisation.
On considère que chaque variable $X_i$, $i\in[\![1;n]\!]$, correspond à une expérience aléatoire, qui est un succès lorsque $X_i=1$, ce qui se produit avec probabilité $p$. On réalise ces $n$ expérience de manières indépendantes.
D'autre part $S$ est une somme de $0$ et de $1$, elle est donc égale au nombre de termes égaux à $1$, c'est-à-dire au nombre de succès obtenus.
On sait donc que $S\hookrightarrow\mathcal{B}(n,p)$.
Preuve2: Par un calcul de fonctions génératrices.
On a vu dans l'exercice sur les fonctions génératrices que, pour tout $t\in\mathbb{R}$:
$$G_S(t)=\prod_{i=1}^n G_{X_i}(t)=\prod_{i=1}^n (pt+1-p)=(pt+1-p)^n$$
ce qui prouve que $S\hookrightarrow\mathcal{B}(n,p)$.
- Stabilité de la loi binomiale. Si $X\hookrightarrow\mathcal{B}(n_1,p)$, $Y\hookrightarrow\mathcal{B}(n_2,p)$. et $X$ est indépendante de $Y$, alors $X+Y\hookrightarrow\mathcal{B}(n_1+n_2,p)$.
Remarquer que le point crucial est que le paramètre $p$ est le même pour les deux variables.
On se donne des variables $X_1$, $X_2$, $\dots$, $X_{n_1+n_2}$ i.i.d. de loi $\mathcal{B}(p)$.
D'après le résultat précédent:
D'après le résultat précédent:
$$X\overset{(\mathcal{L})}{=}\sum_{i=1}^{n_1}X_i\quad\hbox{et}\quad Y\overset{(\mathcal{L})}{=}\sum_{i=n_1+1}^{n_1+n_2}X_i$$
D'autre part la loi de $X+Y$ est entièrement déterminée par la loi de $X$ et la loi de $Y$, ceci car les variables $X$ et $Y$ sont indépendantes (c'est l'argument essentiel! en général la loi de $X+Y$ est déterminée par la loi conjointe et non par les lois marginales).
Donc:
$$X+Y\overset{(\mathcal{L})}{=}\sum_{i=1}^{n_1+n_2}X_i\hookrightarrow\mathcal{B}(n_1+n_2,p)$$
Preuve2: Par un calcul de fonctions génératrices.
On a vu dans l'exercice sur les fonctions génératrices que, pour tout $t\in\mathbb{R}$:
Preuve3: Par un calcul de loi.
$$\quad G_{X+Y}(t)=G_{X}(t)\times G_Y(t)=(pt+1-p)^{n_1}(pt+1-p)^{n_2}=(pt+1-p)^{n_1+n_2} $$
ce qui prouve que $X+Y\hookrightarrow\mathcal{B}(n_1+n_2,p)$.
$X(\Omega)=[\![0;n_1]\!]$ et $Y(\Omega)=[\![0;n_2]\!]$ donnent $(X+Y)(\Omega)=[\![0;n_1+n_2]\!]$.
D'autre part si $k\in[\![0;n_1+n_2]\!]$, on a:
$$ [X+Y=k]=\bigcup_{i=0}^{n_1}\big([X=i]\cap[X+Y=k]\big)=\bigcup_{i=0}^{n_1}\big([X=i]\cap[Y=k-i]\big) $$
Or les évènements $[X=i]\cap[Y=k-i]$, $i\in[\![0;n_1]\!]$, sont deux à deux incompatibles, donc par additivité d'une probabilité:
$ \displaystyle \mathbb{P}(X+Y=k)=\sum_{i=0}^{n_1}\mathbb{P}(X=i,Y=k-i) $.
On utilise ensuite l'indépendance de $X$ et $Y$:
D'autre part si $k\in[\![0;n_1+n_2]\!]$, on a:
$$ [X+Y=k]=\bigcup_{i=0}^{n_1}\big([X=i]\cap[X+Y=k]\big)=\bigcup_{i=0}^{n_1}\big([X=i]\cap[Y=k-i]\big) $$
Or les évènements $[X=i]\cap[Y=k-i]$, $i\in[\![0;n_1]\!]$, sont deux à deux incompatibles, donc par additivité d'une probabilité:
$ \displaystyle \mathbb{P}(X+Y=k)=\sum_{i=0}^{n_1}\mathbb{P}(X=i,Y=k-i) $.
On utilise ensuite l'indépendance de $X$ et $Y$:
\begin{eqnarray*} \mathbb{P}(X+Y=k) & = & \sum_{i=0}^{n_1}\mathbb{P}(X=i)\mathbb{P}(Y=k-i) \\ & = & \sum_{i=0}^{n_1}\binom{n_1}{i}p^i(1-p)^{n_1-i}\binom{n_2}{k-i}p^{k-i}(1-p)^{n_2-k+i} \\ & = & p^k(1-p)^{n_1+n_2-k}\sum_{i=0}^{n_1}\binom{n_1}{i}\binom{n_2}{k-i} \\ & = & \binom{n_1+n_2}{k}p^k(1-p)^{n_1+n_2-k} \end{eqnarray*}
d'après la formule de Van der Monde et la convention $\binom{j}{i}=0$ si $i\notin[\![0;j]\!]$.