Borne de Cramér-Rao

Type	Inéquation, théorème
Inventeurs	Harald Cramér, Calyampudi Radhakrishna Rao
Nommé en référence à	Harald Cramér, Calyampudi Radhakrishna Rao, Maurice Fréchet

En statistique, la borne de Cramér-Rao exprime une borne inférieure sur la variance d'un estimateur sans biais. Plus précisément, la borne inférieure est l'inverse de l'information de Fisher. Elle est aussi appelée borne de Fréchet-Darmois-Cramér-Rao (ou borne FDCR) en l'honneur de Maurice Fréchet, Georges Darmois, Harald Cramér et Calyampudi Radhakrishna Rao.

Énoncé

Soit θ le paramètre à estimer (par exemple une moyenne, une variance). On considère un estimateur sans biais que l'on note ${\widehat {\theta }}$ . La borne de Cramér-Rao dit que l'inverse de l'information de Fisher, noté $I(\theta )$ , du paramètre θ, est un minorant de la variance de ${\widehat {\theta }}$ :

$\operatorname {var} ({\hat {\theta }})\geq {\frac {1}{I(\theta )}}$

où l'information de Fisher est $I(\theta )=n\operatorname {E} _{X;\theta }\left[\left({\frac {\partial \ell (X;\theta )}{\partial \theta }}\right)^{2}\right]$ où $\ell (x;\theta )=\log(L(x;\theta ))$ et où ${\textstyle L(X;\theta )}$ est la fonction de vraisemblance.

Si le modèle admet certaines régularités^[1], on a $I(\theta )=-n\operatorname {E} _{X;\theta }\left[{\frac {\partial ^{2}\ell (X;\theta )}{\partial \theta ^{2}}}\right]$ .

Dans certains cas, aucun estimateur non biaisé n'atteint la borne inférieure.

Exemples

Distribution normale multivariée

Dans le cas d'une distribution normale multivariée à d dimensions : ${\textstyle {\boldsymbol {x}}\sim N_{d}\left({\boldsymbol {\mu }}\left({\boldsymbol {\theta }}\right),{\boldsymbol {C}}\left({\boldsymbol {\theta }}\right)\right)}$ les éléments de la matrice d'information de Fisher ^[2] sont

I_{m,k}={\frac {\partial {\boldsymbol {\mu }}^{T}}{\partial \theta _{m}}}{\boldsymbol {C}}^{-1}{\frac {\partial {\boldsymbol {\mu }}}{\partial \theta _{k}}}+{\frac {1}{2}}\mathrm {tr} \left({\boldsymbol {C}}^{-1}{\frac {\partial {\boldsymbol {C}}}{\partial \theta _{m}}}{\boldsymbol {C}}^{-1}{\frac {\partial {\boldsymbol {C}}}{\partial \theta _{k}}}\right)

où « tr » désigne la trace.

On prend $w[n]$ un échantillon de $N$ observations indépendantes de moyenne inconnue $\theta$ et de variance $\sigma ^{2}$ connue :

w[n]\sim \mathbb {N} _{N}\left(\theta {\boldsymbol {1}},\sigma ^{2}{\boldsymbol {I}}\right).

L'information de Fisher est alors un scalaire donné par la formule

I(\theta )=\left({\frac {\partial {\boldsymbol {\mu }}(\theta )}{\partial \theta }}\right)^{T}{\boldsymbol {C}}^{-1}\left({\frac {\partial {\boldsymbol {\mu }}(\theta )}{\partial \theta }}\right)=\sum _{i=1}^{N}{\frac {1}{\sigma ^{2}}}={\frac {N}{\sigma ^{2}}},

et la borne de Cramér-Rao est donnée par la formule

\mathrm {var} \left({\hat {\theta }}\right)\geq {\frac {\sigma ^{2}}{N}}.

Variable aléatoire normale de variance inconnue

On suppose que X est un vecteur aléatoire qui suit une loi normale d'espérance connue ${\textstyle \mu }$ et de variance inconnue ${\textstyle \sigma ^{2}}$ . Considérons T l'estimateur de ${\textstyle \sigma ^{2}}$ :

T={\frac {1}{n}}\sum _{i=1}^{n}\left(X_{i}-\mu \right)^{2}.

Alors T est non biaisé pour ${\textstyle \sigma ^{2}}$ , car ${\textstyle \mathbb {E} [T]=\sigma ^{2}}$ . La variance de T vaut alors :

\mathrm {Var} (T)={\frac {\mathrm {var} \{(X-\mu )^{2}\}}{n}}={\frac {1}{n}}\left[\mathbb {E} \left\{(X-\mu )^{4}\right\}-\left(\mathbb {E} \left\{(X-\mu )^{2}\right\}\right)^{2}\right]

Le premier terme est le quatrième moment centré et vaut ${\textstyle 3\sigma ^{4}}$ , le second est le carré de la variance, soit ${\textstyle \sigma ^{4}}$ . Donc :

\mathrm {Var} (T)={\frac {2\sigma ^{4}}{n}}.

Quelle est l'information de Fisher de cet exemple ? Le score V est défini par :

V={\frac {\partial }{\partial \sigma ^{2}}}\ln L(\sigma ^{2},X)

avec L étant la fonction de vraisemblance. Donc, dans ce cas,

V={\frac {\partial }{\partial \sigma ^{2}}}\ln \left[{\frac {1}{\sqrt {2\pi \sigma ^{2}}}}e^{-(X-\mu )^{2}/{2\sigma ^{2}}}\right]={\frac {(X-\mu )^{2}}{2(\sigma ^{2})^{2}}}-{\frac {1}{2\sigma ^{2}}}

L'information de n évènements indépendants étant seulement n fois l'information d'un seul évènement, soit ${\frac {n}{2(\sigma ^{2})^{2}}}$ .

L'inégalité de Cramér-Rao donne :

\mathrm {var} (T)\geq {\frac {1}{I}}.

Dans ce cas, on a donc égalité. On dit alors que l'estimateur est efficace.

Conditions de régularité

Cette inégalité repose sur deux conditions faibles de régularité des densités de probabilité, $f(x;\theta )$ , et l'estimateur $T(X)$ :

L'information de Fisher est toujours définie ; de manière équivalente, pour tout $x$ tel que $f(x;\theta )>0$ ,

{\frac {\partial }{\partial \theta }}\ln f(x;\theta )

soit fini.

L'intégration par rapport à x et la différentiation par rapport à θ peuvent être échangées dans le calcul de T ; soit encore,

{\frac {\partial }{\partial \theta }}\left[\int T(x)f(x;\theta )\,dx\right]=\int T(x)\left[{\frac {\partial }{\partial \theta }}f(x;\theta )\right]\,dx

si le second membre est fini.

Dans certains cas, un estimateur biaisé peut avoir une variance et une erreur quadratique moyenne en dessous de la borne de Cramér-Rao (cette borne ne s'appliquant que pour les estimateurs non biaisés).

Si la régularité permet d'atteindre la dérivée seconde, alors l'information de Fisher peut se mettre sous une autre forme, et l'inégalité de Cramér-Rao donne :

\mathrm {Var} \left({\widehat {\theta }}\right)\geq {\frac {1}{{\mathcal {I}}(\theta )}}={\frac {1}{-\mathbb {E} \left[{\frac {\partial ^{2}}{\partial \theta ^{2}}}\ln f(X;\theta )\right]}}

Références

↑ Suba Rao, « Lectures on statistical inference » [archive du 26 septembre 2020] (consulté le 24 mai 2020)
↑ (en) S. M. Kay, Fundamentals of Statistical Signal Processing : Estimation Theory, Englewood Cliffs (N. J.), Prentice Hall, 1993, 595 p. (ISBN 0-13-042268-1), p. 47

Bibliographie

(en) Abram Kagan, « Another Look at the Cramér–Rao Inequality », The American Statistician, vol. 55, n^o 3,‎ août 2001, p. 211-212

Portail des probabilités et de la statistique

[SubaRao-1] Suba Rao, « Lectures on statistical inference » [archive du 26 septembre 2020] (consulté le 24 mai 2020)

[2] (en) S. M. Kay, Fundamentals of Statistical Signal Processing : Estimation Theory, Englewood Cliffs (N. J.), Prentice Hall, 1993, 595 p. (ISBN 0-13-042268-1), p. 47

[1]

[2]