En théorie des probabilités , l'inégalité de Chernoff permet de majorer la queue d'une loi de probabilité , c'est-à-dire qu'elle donne une valeur maximale de la probabilité qu'une variable aléatoire dépasse une valeur fixée. On parle également de borne de Chernoff . Elle est nommée ainsi en l'honneur du mathématicien Herman Chernoff .
Il s'agit d'une inégalité de concentration , c'est-à-dire que cette inégalité fournit des bornes sur la probabilité qu'une variable aléatoire dévie d'une certaine valeur[ 1] .
Énoncés
Il existe de nombreux énoncés, et de nombreux cas particuliers.
Cas général
Soit
X
{\displaystyle X}
une variable aléatoire réelle dont la fonction génératrice des moments est telle que, pour un certain réel
t
{\displaystyle t}
,
ϕ
(
t
)
=
E
[
e
t
X
]
<
+
∞
.
{\displaystyle \phi (t)=\mathbb {E} [e^{tX}]<+\infty .}
Alors[ 2] , pour tout
a
≥
0
{\displaystyle a\geq 0}
, l'inégalité de Markov appliquée à la variable aléatoire
e
t
X
{\displaystyle e^{tX}}
stipule que [ 3]
si
t
>
0
,
P
(
X
≥
a
)
≤
e
−
t
a
E
[
e
t
X
]
{\displaystyle {\text{si }}t>0,\,\mathbb {P} \left(X\geq a\right)\leq e^{-ta}\mathbb {E} [e^{tX}]}
et
si
t
<
0
,
P
(
X
≤
−
a
)
≤
e
t
a
E
[
e
t
X
]
.
{\displaystyle {\text{si }}t<0,\,\mathbb {P} \left(X\leq -a\right)\leq e^{ta}\mathbb {E} [e^{tX}].}
Avec des variables symétriques et une espérance nulle
Soient
X
1
,
X
2
,
…
,
X
n
{\displaystyle X_{1},X_{2},\dots ,X_{n}}
des variables aléatoires indépendantes , telles que
E
[
X
i
]
=
0
{\displaystyle \mathbb {E} [X_{i}]=0}
et
|
X
i
|
≤
1
{\displaystyle \left|X_{i}\right|\leq 1\,}
pour tout i . On pose
X
=
∑
i
=
1
n
X
i
{\displaystyle X=\sum _{i=1}^{n}X_{i}}
et on appelle σ2 la variance de X .
Alors, on a pour tout
0
≤
k
≤
2
σ
{\displaystyle 0\leq k\leq 2\sigma \,}
:
P
(
X
≥
k
σ
)
≤
e
−
k
2
/
4
{\displaystyle \mathbb {P} (X\geq k\sigma )\leq e^{-k^{2}/4}}
ainsi que
P
(
−
X
≥
k
σ
)
≤
e
−
k
2
/
4
{\displaystyle \mathbb {P} (-X\geq k\sigma )\leq e^{-k^{2}/4}}
,
et donc aussi
P
(
|
X
|
≥
k
σ
)
≤
2
e
−
k
2
/
4
{\displaystyle \mathbb {P} (\left|X\right|\geq k\sigma )\leq 2e^{-k^{2}/4}}
.
Avec des variables symétriques booléennes
Soient
X
1
,
X
2
,
…
,
X
n
{\displaystyle X_{1},X_{2},\dots ,X_{n}}
des variables aléatoires booléennes (i.e. à valeurs dans
{
0
,
1
}
{\displaystyle \{0,1\}}
) indépendantes, de même espérance p , alors
∀
ε
>
0
{\displaystyle \forall \varepsilon >0}
,
P
(
1
n
∑
i
=
1
n
X
i
>
p
+
ε
)
≤
e
−
2
ε
2
n
{\displaystyle \mathbb {P} \left({\frac {1}{n}}\sum _{i=1}^{n}X_{i}>p+\varepsilon \right)\leq e^{-2\varepsilon ^{2}n}}
, et
P
(
1
n
∑
i
=
1
n
X
i
<
p
−
ε
)
≤
e
−
2
ε
2
n
{\displaystyle \mathbb {P} \left({\frac {1}{n}}\sum _{i=1}^{n}X_{i}<p-\varepsilon \right)\leq e^{-2\varepsilon ^{2}n}}
.
Démonstration
Il existe plusieurs manières de démontrer ces inégalités[ 4] .
Cas général
Avec des variables symétriques booléennes
Démonstration
Pour la première inégalité , on pose
Z
=
X
−
p
{\displaystyle Z=X-p}
et
Z
¯
n
=
1
n
∑
i
=
1
n
Z
i
{\displaystyle {\overline {Z}}_{n}={\frac {1}{n}}\sum _{i=1}^{n}Z_{i}}
où X suit une loi de Bernoulli de paramètre p. Par l'inégalité de Chernoff appliquée à
Z
¯
n
{\displaystyle {\overline {Z}}_{n}}
,
P
(
1
n
∑
i
=
1
n
X
i
≥
p
+
ϵ
)
=
P
(
Z
¯
n
≥
ϵ
)
≤
e
−
h
Z
¯
n
(
ϵ
)
.
{\displaystyle {\begin{aligned}P({\frac {1}{n}}\sum _{i=1}^{n}X_{i}\geq p+\epsilon )&=P({\overline {Z}}_{n}\geq \epsilon )\\&\leq \mathrm {e} ^{-h_{{\overline {Z}}_{n}}(\epsilon )}.\end{aligned}}}
Or
h
Z
¯
n
(
ϵ
)
=
sup
t
≥
0
{
ϵ
t
−
ln
(
E
[
e
t
Z
¯
n
]
)
}
=
n
h
Z
(
ϵ
)
{\displaystyle h_{{\overline {Z}}_{n}}(\epsilon )=\sup _{t\geq 0}\{\epsilon t-\ln(E[\mathrm {e} ^{t{\overline {Z}}_{n}}])\}=nh_{Z}(\epsilon )}
.
En effet, comme
{
X
i
}
i
∈
[
1
,
n
]
{\displaystyle \{X_{i}\}_{i\in [\!1,n\!]}}
sont i.i.d et donc
{
Z
i
}
i
∈
[
1
,
n
]
{\displaystyle \{Z_{i}\}_{i\in [\!1,n\!]}}
sont i.i.d.,
E
[
e
t
Z
¯
n
]
=
∏
i
=
1
n
E
[
e
t
n
Z
i
]
=
E
[
e
t
n
Z
]
n
.
{\displaystyle {\begin{aligned}E[\mathrm {e} ^{t{\overline {Z}}_{n}}]&=\prod _{i=1}^{n}E[\mathrm {e} ^{{\frac {t}{n}}Z_{i}}]\\&=E[\mathrm {e} ^{{\frac {t}{n}}Z}]^{n}.\end{aligned}}}
D'où,
h
Z
¯
n
(
ϵ
)
=
sup
t
≥
0
{
ϵ
t
−
ln
(
E
[
e
t
Z
¯
n
]
)
}
=
sup
t
≥
0
{
ϵ
t
−
n
ln
(
E
[
e
t
n
Z
]
)
}
=
n
sup
t
≥
0
{
ϵ
t
n
−
ln
(
E
[
e
t
n
Z
]
)
}
=
n
h
Z
(
ϵ
)
.
{\displaystyle {\begin{aligned}h_{{\overline {Z}}_{n}}(\epsilon )&=\sup _{t\geq 0}\{\epsilon t-\ln(E[\mathrm {e} ^{t{\overline {Z}}_{n}}])\}\\&=\sup _{t\geq 0}\{\epsilon t-n\ln(E[\mathrm {e} ^{{\frac {t}{n}}Z}])\}\\&=n\sup _{t\geq 0}\{\epsilon {\frac {t}{n}}-\ln(E[\mathrm {e} ^{{\frac {t}{n}}Z}])\}\\&=nh_{Z}(\epsilon ).\end{aligned}}}
Donc,
P
(
1
n
∑
i
=
1
n
X
i
≥
p
+
ϵ
)
≤
e
−
n
sup
t
≥
0
{
ϵ
t
−
ln
(
E
[
e
t
Z
]
)
}
≤
e
n
inf
t
≥
0
{
ln
(
E
[
e
t
Z
]
)
−
ϵ
t
}
≤
e
n
(
ln
(
E
[
e
t
Z
]
)
−
ϵ
t
)
(
pour
t
≥
0
)
.
{\displaystyle {\begin{aligned}P({\frac {1}{n}}\sum _{i=1}^{n}X_{i}\geq p+\epsilon )&\leq \mathrm {e} ^{-n\sup _{t\geq 0}\{\epsilon t-\ln(E[\mathrm {e} ^{tZ}])\}}\\&\leq \mathrm {e} ^{n\inf _{t\geq 0}\{\ln(E[\mathrm {e} ^{tZ}])-\epsilon t\}}\\&\leq \mathrm {e} ^{n(\ln(E[\mathrm {e} ^{tZ}])-\epsilon t)}({\text{pour }}t\geq 0).\end{aligned}}}
On remarque que
E
[
e
t
Z
]
=
e
−
p
t
E
[
e
t
X
]
=
e
−
p
t
(
1
−
p
+
p
e
t
)
{\displaystyle E[\mathrm {e} ^{tZ}]=\mathrm {e} ^{-pt}E[\mathrm {e} ^{tX}]=\mathrm {e} ^{-pt}(1-p+p\mathrm {e} ^{t})}
.
Donc
∀
t
≥
0
,
{\displaystyle \forall t\geq 0,}
ln
(
E
[
e
t
Z
]
)
−
ϵ
t
=
ln
(
1
−
p
+
p
e
t
)
−
(
ϵ
+
p
)
t
=
Ψ
(
t
)
−
ϵ
t
,
{\displaystyle {\begin{aligned}\ln(E[\mathrm {e} ^{tZ}])-\epsilon t&=\ln(1-p+p\mathrm {e} ^{t})-(\epsilon +p)t\\&=\Psi (t)-\epsilon t,\end{aligned}}}
avec
∀
t
∈
R
,
Ψ
(
t
)
=
−
p
t
+
ln
(
1
−
p
+
p
e
t
)
{\displaystyle \forall t\in \mathbb {R} ,~\Psi (t)=-pt+\ln(1-p+p\mathrm {e} ^{t})}
.
En vue d'utiliser la formule de Taylor Lagrange à l'ordre 2, on calcule les dérivées premières et secondes
Ψ
{\displaystyle \Psi }
,
∀
t
∈
R
,
Ψ
′
(
t
)
=
−
p
+
p
e
t
1
−
p
+
p
e
t
Ψ
″
(
t
)
=
(
1
−
p
)
p
e
t
(
1
−
p
+
p
e
t
)
2
=
α
β
(
α
+
β
)
2
≤
1
4
,
{\displaystyle {\begin{aligned}\forall t\in \mathbb {R} ,~\Psi ^{'}(t)&=-p+{\frac {p\mathrm {e} ^{t}}{1-p+p\mathrm {e} ^{t}}}\\\Psi ^{''}(t)&={\frac {(1-p)p\mathrm {e} ^{t}}{(1-p+p\mathrm {e} ^{t})^{2}}}\\&={\frac {\alpha \beta }{(\alpha +\beta )^{2}}}\\&\leq {\frac {1}{4}},\end{aligned}}}
avec
α
=
1
−
p
,
β
=
p
e
t
{\displaystyle \alpha =1-p,~\beta =p\mathrm {e} ^{t}}
. On peut majorer
Ψ
″
(
t
)
{\displaystyle \Psi ^{''}(t)}
par
1
4
{\displaystyle {\frac {1}{4}}}
.
En effet,
(
α
+
β
)
2
=
α
2
+
β
2
+
2
α
β
et
(
α
−
β
)
2
=
α
2
+
β
2
−
2
α
β
≥
0
⇒
2
α
β
≤
α
2
+
β
2
⇒
(
α
+
β
)
2
≥
4
α
β
{\displaystyle (\alpha +\beta )^{2}=\alpha ^{2}+\beta ^{2}+2\alpha \beta {\text{ et }}(\alpha -\beta )^{2}=\alpha ^{2}+\beta ^{2}-2\alpha \beta \geq 0\Rightarrow 2\alpha \beta \leq \alpha ^{2}+\beta ^{2}\Rightarrow (\alpha +\beta )^{2}\geq 4\alpha \beta }
.
Donc, comme
Ψ
(
0
)
=
Ψ
′
(
0
)
=
0
{\displaystyle \Psi (0)=\Psi ^{'}(0)=0}
, d'après la formule de Taylor Lagrange ,
∀
t
∈
R
{\displaystyle \forall t\in \mathbb {R} }
,
Ψ
(
t
)
=
Ψ
(
0
)
+
t
Ψ
′
(
0
)
+
t
2
2
Ψ
″
(
θ
t
)
≤
t
2
8
,
{\displaystyle {\begin{aligned}\Psi (t)&=\Psi (0)+t\Psi ^{'}(0)+{\frac {t^{2}}{2}}\Psi ^{''}(\theta t)\\&\leq {\frac {t^{2}}{8}},\end{aligned}}}
avec
θ
∈
[
0
,
1
]
{\displaystyle \theta \in [0,1]}
.
Donc,
∀
t
≥
0
{\displaystyle \forall t\geq 0}
,
P
(
1
n
∑
i
=
1
n
X
i
≥
p
+
ϵ
)
≤
e
n
(
ln
(
E
[
e
t
Z
]
)
−
ϵ
t
)
≤
e
n
(
t
2
8
−
ϵ
t
)
.
{\displaystyle {\begin{aligned}P({\frac {1}{n}}\sum _{i=1}^{n}X_{i}\geq p+\epsilon )&\leq \mathrm {e} ^{n(\ln(E[\mathrm {e} ^{tZ}])-\epsilon t)}\\&\leq \mathrm {e} ^{n({\frac {t^{2}}{8}}-\epsilon t)}.\end{aligned}}}
Soit
∀
t
≥
0
,
g
(
t
)
=
t
2
8
−
ϵ
t
{\displaystyle \forall t\geq 0,~g(t)={\frac {t^{2}}{8}}-\epsilon t}
. On remarque
∀
t
≥
0
,
g
′
(
t
)
=
t
4
−
ϵ
{\displaystyle \forall t\geq 0,~g^{'}(t)={\frac {t}{4}}-\epsilon }
.
Donc g admet un minimum en
t
=
4
ϵ
{\displaystyle t=4\epsilon }
.
Ainsi,
∀
ϵ
>
0
{\displaystyle \forall \epsilon >0}
,
P
(
1
n
∑
i
=
1
n
X
i
≥
p
+
ϵ
)
≤
e
n
(
16
ϵ
2
8
−
4
ϵ
2
)
≤
e
−
2
n
ϵ
2
.
{\displaystyle {\begin{aligned}P({\frac {1}{n}}\sum _{i=1}^{n}X_{i}\geq p+\epsilon )&\leq \mathrm {e} ^{n({\frac {16\epsilon ^{2}}{8}}-4\epsilon ^{2})}\\&\leq \mathrm {e} ^{-2n\epsilon ^{2}}.\end{aligned}}}
Pour la deuxième inégalité ,
∀
ϵ
>
0
{\displaystyle \forall \epsilon >0}
,
P
(
1
n
∑
i
=
1
n
X
i
≤
p
−
ϵ
)
=
P
(
Z
¯
n
≤
−
ϵ
)
=
P
(
−
Z
¯
n
≥
ϵ
)
≤
e
−
h
−
Z
¯
n
(
t
)
d'après l'inégalité de Chernoff
≤
e
−
n
h
−
Z
(
t
)
≤
e
n
inf
t
≥
0
{
ln
(
E
[
e
−
t
Z
]
)
−
ϵ
t
}
≤
e
n
(
ln
(
E
[
e
−
t
Z
]
)
−
ϵ
t
)
(
pour
t
≥
0
)
.
{\displaystyle {\begin{aligned}P({\frac {1}{n}}\sum _{i=1}^{n}X_{i}\leq p-\epsilon )&=P({\overline {Z}}_{n}\leq -\epsilon )\\&=P(-{\overline {Z}}_{n}\geq \epsilon )\\&\leq \mathrm {e} ^{-h_{-{\overline {Z}}_{n}}(t)}{\text{ d'après l'inégalité de Chernoff}}\\&\leq \mathrm {e} ^{-nh_{-Z}(t)}\\&\leq \mathrm {e} ^{n\inf _{t\geq 0}\{\ln(E[\mathrm {e} ^{-tZ}])-\epsilon t\}}\\&\leq \mathrm {e} ^{n(\ln(E[\mathrm {e} ^{-tZ}])-\epsilon t)}({\text{pour }}t\geq 0).\end{aligned}}}
On remarque que :
∀
t
≥
0
{\displaystyle \forall t\geq 0}
,
E
[
e
−
t
Z
]
=
e
p
t
E
[
e
−
t
X
]
=
e
p
t
(
1
−
p
+
p
e
−
t
)
⇒
ln
(
E
[
e
−
t
Z
]
)
=
p
t
+
ln
(
1
−
p
+
p
e
−
t
)
=
Ψ
(
−
t
)
≤
t
2
8
.
{\displaystyle {\begin{aligned}E[\mathrm {e} ^{-tZ}]&=\mathrm {e} ^{pt}E[\mathrm {e} ^{-tX}]\\&=\mathrm {e} ^{pt}(1-p+p\mathrm {e} ^{-t})\\\Rightarrow \ln(E[\mathrm {e} ^{-tZ}])&=pt+\ln(1-p+p\mathrm {e} ^{-t})\\&=\Psi (-t)\\&\leq {\frac {t^{2}}{8}}.\end{aligned}}}
Donc,
∀
ϵ
>
0
,
∀
t
≥
0
{\displaystyle \forall \epsilon >0,~\forall t\geq 0}
,
P
(
1
n
∑
i
=
1
n
X
i
≤
p
−
ϵ
)
≤
e
n
(
t
2
8
−
ϵ
t
)
≤
e
−
2
n
ϵ
2
,
{\displaystyle {\begin{aligned}P({\frac {1}{n}}\sum _{i=1}^{n}X_{i}\leq p-\epsilon )&\leq \mathrm {e} ^{n({\frac {t^{2}}{8}}-\epsilon t)}\\&\leq \mathrm {e} ^{-2n\epsilon ^{2}},\end{aligned}}}
par un argument similaire qui a servi à démontrer la première inégalité.
Applications
Ces inégalités sont très utilisées en informatique théorique , notamment en théorie de la complexité et en algorithmique , où elles permettent de prouver des résultats sur les algorithmes probabilistes .
Voir aussi théorie des grandes déviations .
Extensions
On peut écrire des généralisations intéressantes pour les matrices aléatoires , appelées en anglais matrix Chernoff bound (en) [ 5] .
Références
↑ (en) Boucheron, Stéphane , Lugosi, Gábor et Massart, Pascal , « Concentration Inequalities: A Nonasymptotic Theory of Independence », OUP Academic , 7 février 2013 (DOI 10.1093/acprof:o , lire en ligne , consulté le 20 janvier 2025 )
↑ Brémaud 2009 , p. 184
↑ (en) Jean-François Le Gall , Measure Theory, Probability, and Stochastic Processes , vol. 295, Springer International Publishing, coll. « Graduate Texts in Mathematics », 2022 (ISBN 978-3-031-14204-8 et 978-3-031-14205-5 , DOI 10.1007/978-3-031-14205-5 , lire en ligne )
↑
Wolfgang Mulzer, « Five Proofs of Chernoff’s Bound with Applications », Bulletin of the EATCS , no 124, février 2018 (lire en ligne ) .
↑
Joel A Tropp, « User-friendly tail bounds for sums of random matrices », Foundations of Computational Mathematics , vol. 12, no 4, 2012 , p. 389-434
Voir aussi
Bibliographie
Information related to Inégalité de Chernoff