Un article de Wikipédia, l'encyclopédie libre.
Le lemme de symétrisation (ou lemme de symétrisation de Vapnik-Tchervonenkis ) est un résultat en théorie de probabilités proposée par Vladimir Vapnik et Alexeï Tchervonenkis . Au lieu de comparer la mesure empirique avec la mesure théorique (qui est souvent non connue) ce lemme permet de comparer cette mesure avec une copie indépendante d'elle-même.
Il existe différents énoncés de ce lemme : Pollard utilise la version de la symétrisation avec des processus stochastiques [ 1] mais il existe des versions faisant intervenir l'erreur de généralisation d'un échantillon[ 2] . Soit
(
X
t
)
t
∈
T
,
(
X
t
′
)
t
∈
T
{\displaystyle (X_{t})_{t\in T},(X_{t}')_{t\in T}}
des processus stochastiques indépendants indexés par un ensemble
T
{\displaystyle T}
. Supposons qu'il existe des constantes
α
>
0
,
β
>
0
{\displaystyle \alpha >0,\beta >0}
tel que
∀
t
∈
T
,
P
(
|
X
t
′
|
≤
α
)
≥
β
.
{\displaystyle \forall t\in T,\quad \mathbb {P} \left(|X_{t}'|\leq \alpha \right)\geq \beta .}
Alors,
∀
t
∈
T
,
∀
ε
>
0
,
P
(
sup
t
∈
T
|
X
t
|
>
ε
)
≤
β
−
1
P
(
sup
t
∈
T
|
X
t
−
X
t
′
|
>
ε
−
α
)
.
{\displaystyle \forall t\in T,\forall \varepsilon >0,\quad \mathbb {P} \left(\sup _{t\in T}|X_{t}|>\varepsilon \right)\leq \beta ^{-1}\mathbb {P} \left(\sup _{t\in T}|X_{t}-X_{t}'|>\varepsilon -\alpha \right).}
En particulier en posant
X
t
=
P
n
(
t
)
−
P
(
t
)
{\displaystyle X_{t}=P_{n}(t)-P(t)}
où
P
n
{\displaystyle P_{n}}
est la mesure empirique et
P
{\displaystyle P}
la loi des variables aléatoires
(
Y
i
)
i
∈
N
∗
{\displaystyle (Y_{i})_{i\in \mathbb {N} ^{*}}}
indépendantes et identiquement distribuées sur laquelle la mesure empirique est basée, i.e.
P
n
(
t
)
=
1
n
∑
i
=
1
n
1
{
Y
i
≤
t
}
{\displaystyle P_{n}(t)={\frac {1}{n}}\sum _{i=1}^{n}\mathbf {1} _{\{Y_{i}\leq t\}}}
et
P
(
t
)
=
F
Y
(
t
)
{\displaystyle P(t)=F_{Y}(t)}
avec
F
Y
{\displaystyle F_{Y}}
la fonction de répartition de Y ;
X
t
′
=
P
n
′
−
P
{\displaystyle X_{t}'=P_{n}'-P}
où
P
n
′
{\displaystyle P_{n}'}
est la mesure empirique basée sur une copie des variables précédentes ;
α
=
ε
/
2
,
β
=
1
/
2
{\displaystyle \alpha =\varepsilon /2,\beta =1/2}
,
on obtient que
∀
n
≥
8
ε
−
2
,
P
(
sup
t
∈
R
|
P
n
(
t
)
−
P
(
t
)
|
>
ε
)
≤
2
P
(
sup
t
∈
R
|
P
n
(
t
)
−
P
n
′
(
t
)
|
>
1
2
ε
)
.
{\displaystyle \forall n\geq 8\varepsilon ^{-2},\quad \mathbb {P} \left(\sup _{t\in \mathbb {R} }|P_{n}(t)-P(t)|>\varepsilon \right)\leq 2\mathbb {P} \left(\sup _{t\in \mathbb {R} }|P_{n}(t)-P_{n}'(t)|>{\frac {1}{2}}\varepsilon \right).}
On note
τ
=
τ
(
ω
)
{\displaystyle \tau =\tau (\omega )}
un élément de
T
{\displaystyle T}
pour lequel
|
X
τ
|
>
ε
{\displaystyle |X_{\tau }|>\varepsilon }
(i.e.
ω
∈
{
sup
t
∈
T
|
X
t
|
>
ε
}
{\displaystyle \omega \in \{\sup _{t\in T}|X_{t}|>\varepsilon \}}
). Puisqu'il dépend de
X
,
τ
{\displaystyle X,\tau }
est indépendant de
X
′
{\displaystyle X'}
et donc conditionnellement à
X
{\displaystyle X}
il agit comme un élément de
T
{\displaystyle T}
fixé :
P
(
|
X
t
′
|
≤
α
|
X
)
≥
β
.
{\displaystyle \mathbb {P} \left(|X_{t}'|\leq \alpha |X\right)\geq \beta .}
En intégrant :
β
P
(
sup
t
∈
T
|
X
t
|
>
ε
)
≤
P
(
|
X
τ
′
|
≤
α
)
P
(
|
X
τ
|
>
ε
)
≤
P
(
|
X
τ
′
|
≤
α
,
|
X
τ
|
>
ε
)
≤
P
(
|
X
τ
−
X
τ
′
|
>
ε
−
τ
)
≤
P
(
sup
t
∈
T
|
X
t
−
X
t
′
|
>
ε
−
α
)
.
{\displaystyle {\begin{aligned}\beta \mathbb {P} \left(\sup _{t\in T}|X_{t}|>\varepsilon \right)&\leq \mathbb {P} \left(|X_{\tau }'|\leq \alpha \right)\mathbb {P} \left(|X_{\tau }|>\varepsilon \right)\leq \mathbb {P} \left(|X_{\tau }'|\leq \alpha ,|X_{\tau }|>\varepsilon \right)\\&\leq \mathbb {P} \left(|X_{\tau }-X_{\tau }'|>\varepsilon -\tau \right)\leq \mathbb {P} \left(\sup _{t\in T}|X_{t}-X_{t}'|>\varepsilon -\alpha \right).\end{aligned}}}
↑ (en) David Pollard, Convergence of stochastic processes , Springer Series in Statistics, p. 14
↑ Massih-Reza Amini, Apprentissage machine de la théorie à la pratique , Eyrolles, p. 16-17