Problème du char d'assaut allemand

Le problème du char d'assaut allemand réfère à une estimation de la valeur maximale d'une loi uniforme discrète à partir d'un échantillonnage sans remplacement. Il tire son nom de son application par les Alliés de la Seconde Guerre mondiale afin d'estimer la production de chars d'assaut allemands.

Le problème peut être abordé selon les approches d'inférence fréquentiste (en) ou bayésienne.

Selon l'approche fréquentiste, le nombre total ( $N$ ) est fonction du nombre d'échantillons ( $k$ ) et de la valeur de l'échantillon le plus élevé ( $m$ ) selon la relation suivante :

N\approx m-1+{\frac {m}{k}}

Hypothèses de départ

On suppose que l'ennemi produit une série de chars immatriculés par des entiers en commençant par le chiffre 1. En plus de cela, quelle que soit la date de production du char, ses années de service, ou encore son numéro de série, la distribution des numéros d'immatriculation est considérée comme étant uniforme dès l'instant où on mène l'analyse.

Exemple

En supposant que k=4, et que les numéros de série relevés sont les suivants : 19, 40, 42 et 60. Le plus grand numéro de série relevé est m=60. On pose N, le nombre inconnu de chars.

La formule d'estimation du nombre total de chars selon l'approche fréquentiste est la suivante :

N\approx m+{\frac {m}{k}}-1=74,

Tandis qu'en suivant l'approche bayésienne propose cette fonction de masse (probabilités) pour estimer le nombre total de chars :

\ P(N=n)={\begin{cases}0&{\text{si }}n<m\\{\frac {k-1}{k}}{\frac {\binom {m-1}{k-1}}{\binom {n}{k}}}&{\text{si }}n\geq m,\end{cases}}

grâce à laquelle on peut estimer le nombre total chars par la méthode suivante :

{\begin{aligned}N&\approx \mu \pm \sigma =88.5\pm 50.22,\\\mu &=(m-1){\frac {k-1}{k-2}},\\\sigma &={\sqrt {\frac {(k-1)(m-1)(m-k+1)}{(k-3)(k-2)^{2}}}}.\end{aligned}}

La distribution comporte une asymétrie (statistiques) positive puisqu'il y a au moins 60 chars.

Histoire

Lors de la Seconde Guerre mondiale, les Alliés ont tenté de déterminer l'étendue de la production allemande d'armement. Pour ce faire, ils ont utilisé deux approches : la collecte d'informations par les services de renseignements et l'utilisation des probabilités et statistiques.

La seconde approche permettait d'estimer le nombre de chars d'assaut allemand à l'aide des numéros de série des chars capturés ou détruits. Ces derniers, recoupés avec les numéros des châssis, moteurs, roues et pneus, ont permis d'établir une séquence de production^[1]^,^[2]^,^[3].

Selon les services de renseignements Alliés, la production de chars d'assaut allemand était d'environ 1 400 unités par mois entre juin 1940 et septembre 1942. Selon les estimations statistiques, le chiffre était plutôt de 246 par mois. Après la guerre, les cahiers de production allemands ont été saisis et donnaient une valeur de 245 chars par mois^[2].

Estimations de la production allemande^[4]^,^[5]
Mois	Estimation statistique	Estimation par les services de renseignements	Selon les archives allemandes
Juin 1940	169	1 000	122
Juin 1941	244	1 550	271
Août 1942	327	1 550	342

Autres applications

Toujours lors de la Seconde Guerre mondiale, le même modèle a permis d'estimer la production de fusées V2^[6].

L'approche a également été utilisée pour l'estimation de production de chars Merkava israéliens^[7].

Analyse fréquentiste

L'estimateur sans biais de variance minimale pour une estimation ponctuelle du nombre total de chars ${\hat {N}}$ est donné par

${\hat {N}}=m(1+k^{-1})-1$

où m est le plus grand numéro de série observé et k est le nombre de chars observé (la taille de l'échantillon). On remarque que, une fois observé, un numéro de série n'a aucune chance d'être à nouveau observé.

Cet estimateur a une variance de

$\mathrm {var} ({\hat {N}})={\frac {1}{k}}{\frac {(N-k)(N+1)}{k+2}}\approx {\frac {N^{2}}{k^{2}}}{\text{ pour }}k\ll N$ .

En conséquence l'écart-type est approximativement égal a l'écart moyen entre deux observations, c'est-à-dire N / k.

Cette formule d’estimation de N peut être comprise intuitivement comme prenant comme estimation initiale le numéro de série le plus élevé (car étant l'estimateur du maximum de vraisemblance), et en y ajoutant l'écart moyen pour compenser le biais négatif lié à l'utilisation du maximum de l'échantillon m en tant qu'estimateur du maximum de la population totale N. En effet,

${\hat {N}}=m+{\frac {m-k}{k}}=m+mk^{-1}-1=m(1+k^{-1})-1$ .

Notes et références

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « German tank problem » (voir la liste des auteurs).

↑ Ruggles et Brodie 1947, p. ?.
↑ ^{a et b} (en) Gavyn Davies, « How a statistical formula won the war », The Guardian, 20 juillet 2006.
↑ (en) Robert Matthews, « Data sleuths go to war, sidebar in feature 'Hidden truths' », New Scientist,‎ 23 mai 1998 (lire en ligne [archive du 18 avril 2001]).
↑ Ruggles et Brodie 1947, p. 89.
↑ (en) « Order Statistics », sur randomservices.org (consulté le 7 janvier 2021).
↑ Ruggles et Brodie 1947, p. 90–91.
↑ Johnson 1994.

Bibliographie

: document utilisé comme source pour la rédaction de cet article.

(en) R. W. Johnson, « Estimating the Size of a Population », Teaching Statistics, vol. 16, n^o 2,‎ 1994, p. 50–52 (DOI 10.1111/j.1467-9639.1994.tb00688.x.).
(en) R. Ruggles et H. Brodie, « An Empirical Approach to Economic Intelligence in World War II », Journal of the American Statistical Association, vol. 42, n^o 237,‎ 1947, p. 72-91 (DOI 10.1080/01621459.1947.10501915).

Voir aussi

Articles connexes

Liens externes

Le problème du char d'assaut allemand sur grangeblanche.com.

[RugglesBrodie1947?-1] Ruggles et Brodie 1947, p. ?.

[Davies-2006-07-20-2] {a et b} (en) Gavyn Davies, « How a statistical formula won the war », The Guardian, 20 juillet 2006.

[3] (en) Robert Matthews, « Data sleuths go to war, sidebar in feature 'Hidden truths' », New Scientist,‎ 23 mai 1998 (lire en ligne [archive du 18 avril 2001]).

[RugglesBrodie194789-4] Ruggles et Brodie 1947, p. 89.

[5] (en) « Order Statistics », sur randomservices.org (consulté le 7 janvier 2021).

[RugglesBrodie194790–91-6] Ruggles et Brodie 1947, p. 90–91.

[Johnson1994-7] Johnson 1994.

[1]

[2]

[3]

[4]

[5]

[6]

[7]