Problème du char d'assaut allemand

Le problème du char d'assaut allemand réfère à une estimation de la valeur maximale d'une loi uniforme discrète à partir d'un échantillonnage sans remplacement. Il tire son nom de son application par les Alliés de la Seconde Guerre mondiale afin d'estimer la production de chars d'assaut allemands.

Le problème peut être abordé selon les approches d'inférence fréquentiste (en) ou bayésienne.

Principe[modifier | modifier le code]

On suppose que l'ennemi produit des chars immatriculés de 1 à $N$ . On capture $k$ chars. Le but est d'estimer $N$ à partir des numéros d'immatriculation. Dans la suite, $m$ désigne le plus grand numéro d'immatriculation vu.

Exemple[modifier | modifier le code]

Supposons que l'on ait capturé k=4 chars, et que les numéros de série relevés sont les suivants : 19, 40, 42 et 60. Le plus grand numéro de série relevé est m=60.

Approche fréquentiste[modifier | modifier le code]

En fait, selon l'approche fréquentiste, on estime $N$ en fonction du nombre $k$ de chars capturés et du plus grand numéro d'immatriculation $m$ , vu parmi les chars capturés, selon la relation suivante :

$N\approx m-1+{\frac {m}{k}}$

On estime donc le nombre total de chars par :

$N\approx m+{\frac {m}{k}}-1=74.$

Approche bayésienne[modifier | modifier le code]

En suivant l'approche bayésienne, cette fonction de masse est proposée pour estimer le nombre total de chars :

\ P(N=n)={\begin{cases}0&{\text{si }}n<m\\{\frac {k-1}{k}}{\frac {\binom {m-1}{k-1}}{\binom {n}{k}}}&{\text{si }}n\geq m,\end{cases}}

grâce à laquelle on peut estimer le nombre total de chars par la méthode suivante :

{\begin{aligned}N&\approx \mu \pm \sigma =88.5\pm 50.22,\\\mu &=(m-1){\frac {k-1}{k-2}},\\\sigma &={\sqrt {\frac {(k-1)(m-1)(m-k+1)}{(k-3)(k-2)^{2}}}}.\end{aligned}}

La distribution comporte une asymétrie positive puisqu'il y a au moins 60 chars.

Histoire[modifier | modifier le code]

Lors de la Seconde Guerre mondiale, les Alliés ont tenté de déterminer l'étendue de la production allemande d'armement. Pour ce faire, ils ont utilisé deux approches : la collecte d'informations par les services de renseignements et l'utilisation des probabilités et statistiques.

La seconde approche permettait d'estimer le nombre de chars d'assaut allemand à l'aide des numéros de série des chars capturés ou détruits. Ces derniers, recoupés avec les numéros des châssis, moteurs, roues et pneus, ont permis d'établir une séquence de production^[1]^,^[2]^,^[3].

Selon les services de renseignements Alliés, la production de chars d'assaut allemand était d'environ 1 400 unités par mois entre juin 1940 et septembre 1942. Selon les estimations statistiques, le chiffre était plutôt de 246 par mois. Après la guerre, les cahiers de production allemands ont été saisis et donnaient une valeur de 245 chars par mois^[2].

Estimations de la production allemande^[4]^,^[5]
Mois	Estimation statistique	Estimation par les services de renseignements	Selon les archives allemandes
Juin 1940	169	1 000	122
Juin 1941	244	1 550	271
Août 1942	327	1 550	342

Autres applications[modifier | modifier le code]

Toujours lors de la Seconde Guerre mondiale, le même modèle a permis d'estimer la production de fusées V2^[6].

L'approche a également été utilisée pour l'estimation de production de chars Merkava israéliens^[7].

Analyse fréquentiste[modifier | modifier le code]

L'estimateur sans biais de variance minimale pour une estimation ponctuelle du nombre total de chars ${\hat {N}}$ est donné par

{\hat {N}}=m(1+k^{-1})-1

où m est le plus grand numéro de série observé et k est le nombre de chars observé (la taille de l'échantillon). On remarque que, une fois observé, un numéro de série n'a aucune chance d'être à nouveau observé.

Cet estimateur a une variance de

\mathrm {var} ({\hat {N}})={\frac {1}{k}}{\frac {(N-k)(N+1)}{k+2}}\approx {\frac {N^{2}}{k^{2}}}{\text{ pour }}k\ll N

.

En conséquence l'écart-type est approximativement égal à l'écart moyen entre deux observations, c'est-à-dire N/k.

Cette formule d’estimation de N peut être comprise intuitivement comme prenant comme estimation initiale le numéro de série le plus élevé (car étant l'estimateur du maximum de vraisemblance), et en y ajoutant l'écart moyen pour compenser le biais négatif lié à l'utilisation du maximum de l'échantillon m en tant qu'estimateur du maximum de la population totale N. En effet,

{\hat {N}}=m+{\frac {m-k}{k}}=m+mk^{-1}-1=m(1+k^{-1})-1

.

Notes et références[modifier | modifier le code]

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « German tank problem » (voir la liste des auteurs).

↑ Ruggles et Brodie 1947, p. ?.
↑ ^{a et b} (en) Gavyn Davies, « How a statistical formula won the war », The Guardian, 20 juillet 2006.
↑ (en) Robert Matthews, « Data sleuths go to war, sidebar in feature 'Hidden truths' », New Scientist,‎ 23 mai 1998 (lire en ligne [archive du 18 avril 2001]).
↑ Ruggles et Brodie 1947, p. 89.
↑ (en) « Order Statistics », sur randomservices.org (consulté le 7 janvier 2021).
↑ Ruggles et Brodie 1947, p. 90–91.
↑ Johnson 1994.

Bibliographie[modifier | modifier le code]

: document utilisé comme source pour la rédaction de cet article.

(en) R. W. Johnson, « Estimating the Size of a Population », Teaching Statistics, vol. 16, n^o 2,‎ 1994, p. 50–52 (DOI 10.1111/j.1467-9639.1994.tb00688.x.).
(en) R. Ruggles et H. Brodie, « An Empirical Approach to Economic Intelligence in World War II », Journal of the American Statistical Association, vol. 42, n^o 237,‎ 1947, p. 72-91 (DOI 10.1080/01621459.1947.10501915).

Voir aussi[modifier | modifier le code]

Articles connexes[modifier | modifier le code]

Liens externes[modifier | modifier le code]

Le problème du char d'assaut allemand sur grangeblanche.com.

[RugglesBrodie1947?-1] Ruggles et Brodie 1947, p. ?.

[Davies-2006-07-20-2] {a et b} (en) Gavyn Davies, « How a statistical formula won the war », The Guardian, 20 juillet 2006.

[3] (en) Robert Matthews, « Data sleuths go to war, sidebar in feature 'Hidden truths' », New Scientist,‎ 23 mai 1998 (lire en ligne [archive du 18 avril 2001]).

[RugglesBrodie194789-4] Ruggles et Brodie 1947, p. 89.

[5] (en) « Order Statistics », sur randomservices.org (consulté le 7 janvier 2021).

[RugglesBrodie194790–91-6] Ruggles et Brodie 1947, p. 90–91.

[Johnson1994-7] Johnson 1994.

[1]

[2]

[3]

[4]

[5]

[6]

[7]