Analyse prédictive

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher

L'analyse (ou logique) prédictive englobe une variété de techniques issues des statistiques, d'extraction de données et de la théorie des jeux qui analysent des faits présents et passés pour faire des hypothèses prédictives sur des évènements futurs[1]. Dans le monde des affaires, des modèles prédictifs exploitent des schémas découverts à l'intérieur des ensembles de données historiques et transactionnels pour identifier les risques et les opportunités. Les Modèles capturent les relations entre de nombreux facteurs permettant l'évaluation des risques ou celle des opportunités associés à un ensemble spécifique de conditions, afin d'orienter la prise de décision vers telle ou telle action. L'analyse (ou logique) prédictive est utilisée en actuariat, dans les services financiers, l'assurance, les télécommunications, le commerce de détail, le tourisme, la santé, l'industrie pharmaceutique et bien d'autres domaines encore. Une des applications les plus connues est l'évaluation du risque-client, qui est utilisée dans l'ensemble des services financiers. Les modèles d'évaluation traitent les antécédents de crédit d'un client, les demandes de prêt, les données client, etc. , afin de classer les individus selon la probabilité de rembourser leurs crédit en temps voulu. Un exemple bien connu est le FICO Score.

Définition[modifier | modifier le code]

L'analyse prédictive, considéré comme un type d'exploration de données[2], est un domaine de l'analyse statistique qui extrait l'information à partir des données pour prédire les tendances futures et les motifs de comportement. Le cœur de l'analyse prédictive se fonde sur la capture des relations entre les variables explicatives et les variables expliquées, ou prédites, issues des occurrences passées, et l'exploitation de ces relations pour prédire les résultats futurs[3]. Il est important de noter, toutefois, que l'exactitude et l'utilité des résultats dépendent grandement du niveau de l'analyse des données et de la qualité des hypothèses. L'analyse prédictive s'occupe exclusivement de la Nécessité, pas du Hasard (Le Hasard et la Nécessité_ J Monod), du "Predictive future" que J. Derrida appelle "Futur" par opposition à "l'Avenir" que l'on ne peut prédire, car Avenir = Nécessité + Hasard.

Types[modifier | modifier le code]

Modèles prédictifs[modifier | modifier le code]

Les modèles prédictifs analysent les performances passées pour estimer la probabilité que peut avoir un client de montrer un comportement spécifique dans le futur afin d'améliorer l'efficacité marketing. Cette classe de modèles comprend aussi des modèles recherchant des motifs de données subtiles pour répondre aux questions de la performance client, tels que les modèles de détection des fraudes. Les modèles prédictifs effectuent souvent des calculs durant les transactions en ligne, pour par exemple, évaluer le risque d'un client donné ou d'une transaction donnée, dans le but d'aider à la décision. Avec l'augmentation de la vitesse des ordinateurs, des systèmes de modélisation d'agent peuvent simuler le comportement humain en réponse à des stimulus ou à des scénarios. Le vocable pour l'animation de données spécifiquement liées à un individu dans un environnement de simulation est l'analyse d'avatar[réf. nécessaire].

Modèles descriptifs[modifier | modifier le code]

Les modèles descriptifs quantifient les relations entre les données d'une manière souvent employée pour classer les clients ou les prospects dans des groupes. À l'opposé des modèles prédictifs qui se concentrent sur la prédiction d'un seul comportement de client (tel que le risque client), les modèles descriptifs identifient plusieurs relations entre les clients ou entre produits. Les modèles descriptifs n'ordonnent pas les clients par la probabilité qu'ils ont d'entreprendre telle ou telle action, comme le font les modèles prédictifs. Ils peuvent être utilisés, par exemple, pour catégoriser les clients par leurs préférences et leur étape de développement. Les outils des modèles descriptifs sont employés pour créer d'autres modèles pouvant simuler de grands nombres d'agents individualisés et proposer des prédictions[réf. nécessaire].

Modèles de décision[modifier | modifier le code]

Les modèles de décision[Note 1] décrivent des relations entre tous les éléments d'une décision - les données connues (y compris les résultats des modèles prédictifs), la décision et les résultats attendus de la décision - afin de prédire les résultats des décisions mettant en jeu un nombre de variables important. Ces modèles peuvent être utilisés dans l'optimisation, la maximisation de certains effets et la minimisation d'autres effets. Les modèles de décision sont généralement utilisés pour développer une logique de décision ou un ensemble de règles métier qui produiront l'action souhaitée pour chaque client ou dans chaque circonstance.

Applications[modifier | modifier le code]

Bien que l'analyse prédictive puisse être utilisée dans un grand nombre d'applications, quelques exemples où l'analyse prédictive a montré un impact décisif dans les années passées sont présentés ici.

Systèmes d'aide à la décision clinique[modifier | modifier le code]

Les experts utilisent l'analyse prédictive dans le domaine de la santé principalement pour déterminer quels sont les patients susceptibles de développer des maladies telles que le diabète, l'asthme, les maladies cardiaques, et d'autres affections potentiellement dangereuses. De plus, les systèmes d'aide à la décision clinique incorporent l'analyse prédictive pour soutenir les décisions médicales. Une définition a été proposée par le Docteur Robert Hayward du Centre des Évidences de Santé : « Les systèmes d'aide à la décision clinique font le lien entre les observations et la connaissance clinique pour influencer les choix des cliniciens afin d'améliorer les services médicaux »[réf. nécessaire].

Recouvrement financier[modifier | modifier le code]

Chaque portefeuille contient en son sein un ensemble de clients à risque qui ne remplissent pas leurs obligations à temps. L'institution financière doit entreprendre des actions de recouvrement pour encaisser les sommes dues. Un grand nombre de ressources est gaspillé pour des clients dont les sommes dues sont difficiles voire impossibles à recouvrir. L'analyse prédictive peut aider à optimiser les sommes allouées au recouvrement en identifiant les agences les plus efficaces, les stratégies de contact, les actions judiciaires et autres pour chaque client, afin d'augmenter le taux de recouvrement tout en réduisant les coûts[réf. nécessaire].

Souscription[modifier | modifier le code]

Beaucoup de métiers ont à tenir compte de leur exposition aux risques en référence aux services qu'ils offrent et doivent déterminer le coût nécessaire à la couverture des risques. Par exemple les fournisseurs d'assurances automobiles ont besoin d'évaluer le montant de la prime d'assurance pour couvrir le risque couru par l'automobile et le conducteur. Une institution financière a besoin d'évaluer le potentiel et la capacité de remboursement de l'emprunteur avant l'accord de prêt. Pour un assureur santé, l'analyse prédictive peut aider à analyser les données du passé médical sur quelques années, aussi bien que tout autre information en provenance des laboratoires, pharmacies, et autres enregistrements disponibles, pour savoir le cout que l'assuré occasionnera dans le futur. L'analyse prédictive peut aider à la souscription de ces contrats en évaluant les probabilité de maladie, de défaut de paiement, de failliteetc. L'analyse prédictive peut rationaliser le processus d'acquisition de clients, en évaluant le comportement à risque du client en utilisant les données disponibles. L'analyse prédictive, dans son volet scoring a réduit le temps d'approbation d'une demande de crédit ou de prêt. Une analyse prédictive adéquates peut mener à des décisions de tarification adéquates qui peuvent aider à alléger les risques futurs de défaut de paiement, de remboursement , etc.

Techniques statistiques[modifier | modifier le code]

Les approches et techniques utilisées pour conduire l'analyse prédictive peut grandement être regroupées sous les techniques de régression et d'apprentissage automatique.

Modèles de Régression[modifier | modifier le code]

Les modèles de Régression sont un piller de l'analyse prédictive. Le point central réside dans la création d'équations mathématiques comme modèle pour représenter les interactions entre les différentes variables considérées. Selon la situation, il y a une large variété de modèles pouvant être appliqués. Quelques-uns sont présentés ci-dessous.

Modèle de régression linéaire[modifier | modifier le code]

Modèle de régression linéaire simple

Le Modèle de régression linéaire analyse les relations entre la variable dépendante ou variable réponse et l'ensemble des variables indépendantes ou prédictives. Cette relation est exprimée comme une équation qui prédit les valeurs de la variable réponse comme une combinaison linéaire de paramètres. Ces paramètres sont ajustés de telle manière que l'estimation soit optimisée. La plus grande partie des efforts à faire pour estimer le modèle est concentrée sur la taille du résidu, ainsi que sur l'assurance qu'il est distribué aléatoirement en respectant les prédictions du modèle.

Le but de la régression est de sélectionner les paramètres du modèle de telle manière qu'ils minimisent la somme des résidus au carré. On se réfère à la Méthode des moindres carrés ordinaire (« ordinary least squares » (OLS)) et aux résultats des meilleures estimations linéaires non biaisées (« BLUE ») des paramètres si et seulement si l'hypothèse Gauss-Markov est remplie.

Une fois que le modèle est estimé, nous nous intéressons à l'appartenance des variables prédictives au modèle - c'est-à-dire, à savoir si l'estimation de chaque contribution des variables est fiable. Pour ce faire, nous pouvons vérifier la signification statistique des coefficients du modèle qui peut être mesurée par les test T. Ceci revient à tester si le coefficient est significativement différent de zéro. Le test R² permet de savoir si la variable dépendante est correctement prédite par le modèle en fonction des valeurs des variables indépendantes. Ce test mesure le pouvoir de prédiction du modèle c'est-à-dire la proportion de la variation totale de la variable dépendante expliquée par le variation des variables indépendantes.

Modèle d'auto régression[modifier | modifier le code]

Modèles à choix discret[modifier | modifier le code]

La régression multivariée (ci-dessus) est généralement utilisée quand la variable réponse/expliquée est continue et s'étend dans un domaine infini. Souvent la variable expliquée n'est pas continue, mais discrète. Bien qu'en mathématiques il est réalisable d'appliquer une régression multivariée sur des variables dépendantes ordonnées et discrètes, certains des postulats de la théorie de la régression linéaire multivariée ne tiennent plus, et d'autres techniques telles que les modèles à choix discrets sont meilleurs pour ce type d'analyse. Si la variable dépendante est discrète, ces méthodes plus efficaces sont la régression logistique, les modèles régression logistique multinomiale (logit multinomial), et probit. Le premier et le dernier de ces modèles s'utilisent lorsque la variable dépendante est binaire.

La Régression logistique[modifier | modifier le code]

Article détaillé : régression logistique.


Dans l'établissement d'une classification, assigner des probabilités de résultats aux observations peut être réalisé au travers de l'utilisation d'un modèle logistique, qui est fondamentalement une méthode transformant l'information sur la variable dépendante binaire en une variable continue illimitée estimée à l'aide d'un Modèle d'analyse multivariée ordinaire.

Les test de Wald et celui du ratio de vraisemblance sont utilisés pour évaluer la signification statistique de chaque coefficient b dans le modèle ( d'une manière identique aux tests utilisés pour la Méthode des moindres carrés ordinaire, ci-dessus). L'exactitude (la précision) de l'estimation d'un modele de classification peut être évaluée grâce à la validation croisée.

La Régression logistique multinomiale[modifier | modifier le code]

Une extension du modèle logistique pour les cas où la variable réponse à plus de deux catégories est le modèle de la Régression logistique multinomiale. Dans cette configuration, forcer les données à entrer dans deux catégories seulement peut ne pas avoir de sens ou peut aussi conduire à une perte d'information et de richesse des données. Le modèle logistique multinomial est la technique appropriée dans ce cas-là, spécialement quand les catégories de la variable réponse ne sont pas ordonnées, comme par exemple les couleurs rouge, bleu, vert. Quelques auteurs ont prolongé la régression logistique multinomiale en y incluant des méthodes de sélection/importance de caractéristiques telle que la régression logistique multinomiale aléatoire

La Régression probit[modifier | modifier le code]

Logit contre probit[modifier | modifier le code]

Outils[modifier | modifier le code]

Les outils d'analyses prédictives sont nombreux. Outre le fait qu'ils permettent de requêter et de manipuler des données, ils proposent chacun un choix plus ou moins denses de modèles prédictifs pouvant être déployés pour industrialisation si besoin. Les logiciels commerciaux SAS, SPSS (IBM) et STATISTICA (StatSoft), HyperCube [4] sont plutôt destinés aux entreprises, ou aux organismes ayant de gros volumes de données à explorer. Les logiciels libres R, Weka en sont de bonnes alternatives pour les initiés.

Notes[modifier | modifier le code]

  1. voir par exemple le site du CEDIP « Les différents modèles de prise de décision » (consulté le 6 juin 2011)

Références[modifier | modifier le code]

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Predictive analytics » (voir la liste des auteurs)

  1. (en) Predictive Analytics World, « What is Predictive Analytics » (consulté le 5 juin 2011)
  2. (en) Predictive Analytics World, « Is this a "data mining" conference? » (consulté le 5 juin 2011)
  3. [PDF](en) Charles Nyce, « predictive Analytics White paper » (consulté le 3 juin 2011)
  4. http://www.bearingpoint.com/fr-fr/7-5295/