Prédiction statistique des résultats de football

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher

La prédiction statistique des résultats de football est une méthode utilisée pour les paris sportifs afin de prédire l'issue des matchs de football à l'aide d'outils statistiques. L'objectif de la prédiction statistique match est de battre les prédictions des bookmakers, qui les utilisent pour définir les cotes sur les résultats des matchs de football.

Approches[modifier | modifier le code]

L'approche la plus largement utilisée en statistiques de prédiction est le classement. Les systèmes de classement pour le football attribuent un rang à chaque équipe en fonction de leurs résultats de jeu passé, de sorte que le rang le plus élevé est attribué à la meilleure équipe. Le résultat du match peut être prédit en comparant les rangs de l'adversaire. Aujourd'hui, huit différents systèmes de ce classement pour le football existent: Classement mondial de la FIFA, Classement mondial de football Elo, AQB Sports Ratings, Le Roon Ba, InternationalMark, Rsoccer, Mondfoot et Chance de Gol.

Il y a trois principaux inconvénients aux systèmes de prédictions des matchs de football qui sont fondés sur les systèmes de classement :

  1. les rangs assignés aux équipes ne font pas la différence entre leur force en attaque et leur force en défense.
  2. les rangs sont basés sur des moyennes accumulées qui ne tiennent pas compte des modifications des compétences au sein des équipes de football.
  3. l'objectif principal d'un système de classement n'est pas de prédire les résultats des matchs de football, mais de trier les équipes en fonction de leur performance moyenne.

Une autre approche connue pour la prédiction du football est celle des "systèmes de notation". Alors que les systèmes de classement se réfèrent uniquement à l'ordre des équipes, les systèmes de notation attribue à chaque équipe un indicateur de force ré-évalué en permanence. En outre, la notation peut être attribué non seulement à une équipe, mais aussi à ses forces d'attaque et de défense, à l'avantage du terrain ou même aux compétences de chaque équipe (selon Stern[1]).

Histoire[modifier | modifier le code]

Les publications sur des modèles statistiques pour les prévisions de football ont commencé à apparaître à partir des années 1990, mais le premier modèle a été proposé plus tôt par Moroney[2], qui a publié sa première analyse statistique des résultats de match de football en 1956. Selon son analyse, à la fois la Loi de Poisson et la Loi binomiale négative fournissent un bon ajustement des résultats des matchs de football. La série de passe entre les joueurs lors des matchs de football a aussi été analysé avec succès en utilisant la distribution binomiale négative par Reep et Benjamin[3] en 1968. Ils ont amélioré ce procédé en 1971, et dans Hill 1974[4] est indiqué que les résultats du jeu de football sont dans une certaine mesure prévisible et non pas simplement une question de chance.

Le premier modèle pour prédire les résultats des matchs de football entre des équipes avec des compétences différentes a été proposé par Maher[5] en 1982. Selon son modèle, les buts que les opposants marquent au cours du jeu sont tirées de la Loi de Poisson. Les paramètres du modèle sont définis par la différence entre les compétences d'attaque et de défense, ajustées par le facteur de l'avantage du terrain. Les méthodes de modélisation du facteur de l'avantage du terrain ont été résumées dans un article de Caurneya et Carron[6] en 1992. La variation temporelle des forces de l'équipe a été analysé par Knorr-Held[7] en 1999. Il a utilisé l'estimation récursive bayésienne pour les notations des équipes de football: cette méthode s'est avérée plus réaliste que la prévision fondée sur des moyennes statistiques.

Méthodes de prévision[modifier | modifier le code]

Comparaison[modifier | modifier le code]

Toutes les méthodes de prédiction peuvent être classés selon le type de tournoi, le dépendance au temps et l'algorithme de régression utilisé. Les méthodes de prévision du football diffèrent entre championnat et tournoi à élimination directe. Les méthodes de prévision pour les tournois à élimination directe sont résumées dans un article par Diego Kuonen[8].

Le tableau ci-dessous résume les méthodes utilisées pour les championnats.

# Code Méthode de Prévision Algorithme de régression Dépendance au temps Performance
1. TILS Time Independent Least Squares Rating Régression des moindres carrés linéaire N Faible
2. TIPR Time Independent Poisson Regression Maximum de vraisemblance N Moyenne
3. TISR Time Independent Skellam Regression Maximum de vraisemblance N Moyenne
4. TDPR Time Dependent Poisson Regression Maximum de vraisemblance Facteur d'amortissement du temps Haute
5. TDMC Time Dependant Markov Chain Monte-Carlo Chaîne de Markov Haute

Time Independent Least Squares Rating[modifier | modifier le code]

Cette méthode attribue à chaque équipe du tournoi une notation en continu, de sorte que la meilleure équipe aura la meilleure note. La méthode est basée sur l'hypothèse que la cote attribuée à l'équipe rivale est proportionnelle à l'issue de chaque match.

Supposons que les équipes A, B, C et D jouent dans un tournoi et que les résultats des matchs sont les suivants:

Match # Équipe à domicile Score Équipe à l'extérieur Y
1 A 3 - 1 B y_{1}=3-1
2 C 2 - 1 D y_{2}=2-1
3 D 1 - 4 B y_{3}=1-4
4 A 3 - 1 D y_{4}= 3-1
5 B 2 - 0 C y_{5}=2-0

Bien que les rangs r_{A}, r_{B}, r_{C} et r_{D} des équipes A, B, C et D, respectivement ne sont pas connus, on peut supposer que le résultat du match #1 est proportionnel à la différence entre les rangs des équipes A et B: y_{1}=r_{A}-r_{B}+\varepsilon _1. De cette façon, y_{1} correspond à la différence de score et \varepsilon _1 est l'observation du bruit. La même hypothèse peut être faite pour tous les matchs dans le tournoi:

\begin{matrix}
   y_{1}=r_{A}-r_{B}+\varepsilon _{1}\\
   y_{2}=r_{C}-r_{D}+\varepsilon _{2}\\
   ...\\
   y_{5}=r_{B}-r_{C}+\varepsilon _{5}\\
\end{matrix}

En introduisant une matrice de sélection X, les équations ci-dessus peut être réécrit sous une forme compacte:

\mathbf{y}=\mathbf{Xr}+\mathbf{e}.

Les entrées de la matrice de sélection peut être soit 1, 0 ou -1, avec 1 correspondant à des équipes d'accueil et de -1 à l'écart des équipes:

\begin{matrix}
   \mathbf{y}=\left[ \begin{matrix}
   2 \\
   1 \\
   -3 \\
   2 \\
   2 \\
\end{matrix} \right], & \mathbf{X}= \left[ \begin{matrix}
   1 & -1 & 0 & 0 \\
   0 & 0 & 1 & -1 \\
   0 & -1 & 0 & 1 \\
   1 & 0 & 0 & -1 \\
   0 & 1 & -1 & 0 \\
\end{matrix} \right], & \mathbf{r}=\left[ \begin{matrix}
   r_{A} \\
   r_{B} \\
   r_{C} \\
   r_{D} \\
\end{matrix} \right], & \mathbf{e} = \left[ \begin{matrix}
   \varepsilon _{1} \\
   \varepsilon _{2} \\
   \varepsilon _{3} \\
   \varepsilon _{4} \\
   \varepsilon _{5} \\
\end{matrix} \right] \\
\end{matrix}

Si la matrice \mathbf{X}^{T} \mathbf{X} est de rang plein, la solution algébrique du système peuvent être trouvées via la méthode des Moindres carrés:

\mathbf{r}=\left(\mathbf{X}^{T} \mathbf{X} \right)^{-1} \mathbf{X}^{T} \mathbf{y}

Les paramètres de la cote finale sont \mathbf{r}=[1,625, \ 0,75, \ -0,875, \ -1,5]^{T}. Dans ce cas, l'équipe la plus forte a la plus haute cote. L'avantage de cette méthode de notation par rapport aux systèmes de classement standards est que les valeurs sont en ré-évaluées en permanence, ce qui permet de définir avec précision la différence entre la force des équipes.

Time Independent Poisson Regression[modifier | modifier le code]

Selon ce modèle (Maher[5]), si X_{i, j} et Y_{i, j} sont les buts marqués dans le match opposant l'équipe i à l'équipe j, alors:

\begin{align}
  & X_{i, j} \sim Poisson (\lambda ) \\
 & Y_ {i, j} \sim Poisson (\mu ) \\
\end{align}

X_{i,j} et Y_{i,j} sont des variables aléatoires indépendantes avec des moyennes arithmétiques \lambda et \mu. Ainsi, la probabilité conjointe pour l'équipe à domicile de marquer x buts et pour l'équipe à l'extérieur de marquer y buts est un produit des deux probabilités indépendantes:

P\left(X_{i, j}=x, Y_{i, j}=y \right)=\frac{\lambda^{x} \exp(-\lambda)}{x!} \frac{\mu^{y} \exp(-\mu)}{y!}

tandis que le modèle log-linéaire généralisé pour \lambda et \mu d'après Kuonen[8] et Lee[9] est défini par: \log \left(\lambda \right)= c^{\lambda} + a_{i} + d_{j} + h et \log \left(\mu \right) = c^{\mu} + a_{j} + d_{i}, où a_{i},d_{i},h > 0 se réfèrent à la force d'attaque, de défense et à l'avantage du terrain, respectivement. c ^{\lambda} et c^{\mu} sont des facteurs de correction qui représentent le nombre moyens de buts marqués au cours de la saison par l'équipe à domicile et à l'extérieur respectivement.

En supposant que C signifie le nombre d'équipes participant à une saison et que N représente le nombre de matchs disputés jusqu'à présent, les forces d'une équipe peuvent être estimées en minimisant la fonction de log-vraisemblance négative par rapport à  \lambda et \mu:

\begin{align}
  & L(a_{i},d_{i},h;\ i=1,..C)=-\log \prod\limits_{n=1}^{N}{\frac{\lambda _{n}^{x_{n}}\exp (-\lambda _{n})}{x_{n}!}\frac{\mu _{n}^{y_{n}}\exp (-\mu _{n})}{y_{n}!}}=-\sum\limits_{n=1}^{N}{\log \left( \frac{\lambda _{n}^{x_{n}}\exp (-\lambda _{n})}{x_{n}!}\frac{\mu _{n}^{y_{n}}\exp (-\mu _{n})}{y_{n}!} \right)} \\ 
 & =\sum\limits_{n=1}^{N}{\lambda _{n}}+\sum\limits_{n=1}^{N}{\mu _{n}}-\left( \sum\limits_{n=1}^{N}{x_{n}\log \left( \lambda _{n} \right)} \right)-\left( \sum\limits_{n=1}^{N}{y_{n}\log \left( \mu _{n} \right)} \right)+\sum\limits_{n=1}^{N}{\log \left( x_{n}! \right)}+\sum\limits_{n=1}^{N}{\log \left( y_{n}! \right)} \\ 
\end{align}

Étant donné que x_{n} et y_{n} sont connus, les forces d'attaque et de défense de l'équipe \left(a_{i}, d_{i} \right) et l'avantage du terrain \left(h \right) qui minimisent la log-vraisemblance négative peuvent être estimés par l'Algorithme espérance-maximisation:

\underset{a_{i},d_{i},h}{\mathop{\min }}\,L(a_{i},d_{i},h,i=1,..C)

Des améliorations de ce modèle ont été suggérées par Mark Dixon et Stuart Coles[10]. Ils ont inventé un facteur de corrélation pour les scores faibles 0-0, 1-0, 0-1 et 1-1, où l'hypothèse de Loi de Poisson indépendantes ne tient pas. Dimitris Karlis et Ioannis Ntzoufras[11] ont construit un modèle Time-Independent Skellam Distribution. Contrairement au modèle de Poisson qui correspond à la distribution des scores, le modèle Skellam correspond à la différence entre les scores à domicile et à l'extérieur.

Time Dependant Markov Chain[modifier | modifier le code]

D'une part, les modèles statistiques nécessitent un grand nombre d'observations pour faire une estimation précise de ses paramètres. Et quand il n'y a pas suffisamment d'observations disponibles au cours d'une saison (comme c'est généralement le cas), travailler avec des statistiques moyennes a un sens. D'autre part, il est bien connu que les compétences des équipes changent au cours de la saison, ce qui rend les paramètres du modèle dépendant du temps. Mark Dixon et Stuart Coles[10] ont essayé de résoudre ce problème par un compromis en attribuant un plus grand poids aux résultats du dernier match. Rue et Salvesen[12] ont introduit une méthode de notation dépendant du temps en utilisant un modèle de chaînes de Markov.

Ils ont suggéré de modifier le modèle linéaire généralisé ci-dessus pour \lambda et \mu:

\begin{align}
  & \log \left( \lambda  \right)=c^{\lambda }+a_{i}-d_{j}-\gamma \cdot \Delta _{i,j} \\ 
 & \log \left( \mu  \right)=c^{\mu }+a_{j}-d_{i}+\gamma \cdot \Delta _{i,j} \\ 
\end{align}

étant donné que \Delta _{i, j} = \frac{\left(a_{i} + d_{j} \right) \left(d_{i} + a_{j} \right)}{2} correspond à la différence de défense entre les équipes i et j. Le paramètre \gamma > 0 représente alors les effets psychologiques causés par la sous-estimation de la force de l'équipe adverse.

Selon le modèle, la force d'attaque \left( a \right) de l'équipe A peut être décrit par les équations du mouvement brownien standard, B_{a, A} \left( t \right), pour le temps t_{1} >> t_{0}:

a_{A}^{t_{1}}=a_{A}^{t_{0}}+\left( B_{a,A}\left( t_{1}/\tau  \right)-B_{a,A}\left( t_{0}/\tau  \right) \right)\cdot \frac{\sigma _{a,A}}{\sqrt{1-\gamma \left( 1-{\gamma }/{2}\; \right)}}

\tau et \sigma _{a, A}^{2} se réfèrent respectivement au taux de perte de la mémoire et à la variance de l'attaque a priori.

Ce modèle est basé sur l'hypothèse que:

{a_{A}^{t_{1}}}/{a_{A}^{t_{0}}}\; \sim N\left( a_{A}^{t_{0}},\ \frac{t_{1}-t_{0}}{\tau }\sigma _{a,A}^{2} \right)

En supposant que trois équipes A, B et C jouent dans le tournoi et que les matchs sont joués dans l'ordre suivant: t_{0}: A-B; t_{0}: A-C; t_{1}: B-C, la densité de probabilité conjointe peut être exprimée comme suit:

\begin{align}
  & P(a_{i},d_{i},\gamma ,\,\tau ;\ A,B,C)=P\left( \lambda _{A},t_{0} \right)\cdot P\left( \lambda _{B},t_{0} \right)\cdot P\left( \lambda _{C},t_{0} \right) \\ 
 & \times P\left( X_{A,B}=x,Y_{A,B}=y|\lambda _{A},\mu _{B},t_{0} \right)\cdot P\left( X_{A,C}=x,Y_{A,C}=y|\lambda _{A},\mu _{C},t_{0} \right) \\ 
 & \times P\left( \lambda _{A},t_{1}|\lambda _{A},t_{0} \right)\cdot P\left( \mu _{C},t_{1}|\mu _{C},t_{0} \right) \\ 
\end{align}

Puisque l'estimation analytique des paramètres est difficile dans ce cas, la méthode de Monte-Carlo est appliquée pour estimer les paramètres du modèle.

Liens externes[modifier | modifier le code]

Références[modifier | modifier le code]

  1. Stern Hal. (1995) Who's Number 1 in College Football?...And How Might We Decide? Chance, Summer, 7-14.
  2. Moroney M. J. (1956) Facts from figures. 3rd edition, Penguin, London.
  3. Reep C. Benjamin B. (1968) Skill and chance in association football. Journal of the Royal Statistical Society A, 131, 581-585.
  4. Hill I.D. (1974), Association football and statistical inference. Applied statistics, 23, 203-208.
  5. a et b Maher M.J. (1982), Modelling Association Football scores. Statistica Neerlandica, 36, 109-118
  6. Caurneya K.S. and Carron A.V. (1992) The home advantage in sports competitions: a literature review. Journal of Sport and Exercise Physiology, 14, 13-27.
  7. Knorr-Held, Leonhard (1997) Dynamic Rating of Sports Teams. (REVISED 1999). Collaborative Research Center 386, Discussion Paper 98
  8. a et b Diego Kuonen (1996) Statistical Models for Knock-out Soccer Tournaments
  9. Lee A. J. (1997) Modeling scores in Premier League: is Manchester United really the best. Chance, 10, 15-19
  10. a et b Mark J. Dixon and Coles S.G. (1997) Modeling Association Football Scores and Inefficiencies in the Football Betting Market, Applied Statistics, Volume 46, Issue 2, 265-280
  11. Dimitris Karlis and Ioannis Ntzoufras (2007) Bayesian modelling of football outcomes: Using the Skellam’s distribution for the goal difference
  12. Rue H. and Salvesen O. (1999) Predicting and retrospective analysis of soccer matches in a league. Technical Report. Norvegian University of Science and Technology, Trondheim.