Analyse prédictive

Un article de Wikipédia, l'encyclopédie libre.
Ceci est une version archivée de cette page, en date du 5 février 2020 à 11:06 et modifiée en dernier par Laurent04000 (discuter | contributions). Elle peut contenir des erreurs, des inexactitudes ou des contenus vandalisés non présents dans la version actuelle.

L'analyse (ou logique) prédictive englobe une variété de techniques issues des statistiques, d'extraction de connaissances à partir de données et de la théorie des jeux qui analysent des faits présents et passés pour faire des hypothèses prédictives sur des événements futurs[1]. Dans le monde des affaires, des modèles prédictifs exploitent des schémas découverts à l'intérieur des ensembles de données historiques et transactionnelles pour identifier les risques et les opportunités. Les Modèles capturent les relations entre de nombreux facteurs permettant l'évaluation des risques ou celle des opportunités associés à un ensemble spécifique de conditions, afin d'orienter la prise de décision vers telle ou telle action. L'analyse (ou logique) prédictive est utilisée en actuariat, dans les services financiers, l'assurance, le droit et la justice, les télécommunications, le commerce de détail, le tourisme, la santé, l'industrie pharmaceutique et bien d'autres domaines encore. Une des applications les plus connues est l'évaluation du risque-client, qui est utilisée dans l'ensemble des services financiers. Les modèles d'évaluation traitent les antécédents de crédit d'un client, les demandes de prêt, les données client, etc. , afin de classer les individus selon la probabilité de rembourser leurs crédits en temps voulu. Un exemple bien connu est le FICO Score.

Définition

L'analyse prédictive, considérée comme un type d'exploration de données[2], est un domaine de l'analyse statistique qui extrait l'information à partir des données pour prédire les tendances futures et les motifs de comportement. Le cœur de l'analyse prédictive se fonde sur la capture des relations entre les variables explicatives et les variables expliquées, ou prédites, issues des occurrences passées, et l'exploitation de ces relations pour prédire les résultats futurs[3]. Il est important de noter, toutefois, que l'exactitude et l'utilité des résultats dépendent grandement du niveau de l'analyse des données et de la qualité des hypothèses. L'analyse prédictive s'occupe exclusivement de la Nécessité, pas du Hasard (Le Hasard et la Nécessité_ J Monod), du "Predictive future" que J. Derrida appelle "Futur" par opposition à "l'Avenir" que l'on ne peut prédire, car Avenir = Nécessité + Hasard.

Types

Modèles prédictifs

Les modèles prédictifs analysent les performances passées pour estimer la probabilité que peut avoir un client de montrer un comportement spécifique dans le futur afin d'améliorer l'efficacité marketing. Cette classe de modèles comprend aussi des modèles recherchant des motifs de données subtiles pour répondre aux questions de la performance client, tels que les modèles de détection des fraudes. Les modèles prédictifs effectuent souvent des calculs durant les transactions en ligne, pour par exemple, évaluer le risque d'un client donné ou d'une transaction donnée, dans le but d'aider à la décision. Avec l'augmentation de la vitesse des ordinateurs, des systèmes de modélisation d'agent peuvent simuler le comportement humain en réponse à des stimulus ou à des scénarios. Le vocable pour l'animation de données spécifiquement liées à un individu dans un environnement de simulation est l'analyse d'avatar[réf. nécessaire].

Modèles descriptifs

Les modèles descriptifs quantifient les relations entre les données d'une manière souvent employée pour classer les clients ou les prospects dans des groupes. À l'opposé des modèles prédictifs qui se concentrent sur la prédiction d'un seul comportement de client (tel que le risque client), les modèles descriptifs identifient plusieurs relations entre les clients ou entre produits. Les modèles descriptifs n'ordonnent pas les clients par la probabilité qu'ils ont d'entreprendre telle ou telle action, comme le font les modèles prédictifs. Ils peuvent être utilisés, par exemple, pour catégoriser les clients par leurs préférences et leur étape de développement. Les outils des modèles descriptifs sont employés pour créer d'autres modèles pouvant simuler de grands nombres d'agents individualisés et proposer des prédictions.[réf. nécessaire]

Modèles de décision

Les modèles de décision[Note 1] décrivent des relations entre tous les éléments d'une décision - les données connues (y compris les résultats des modèles prédictifs), la décision et les résultats attendus de la décision - afin de prédire les résultats des décisions mettant en jeu un nombre de variables important. Ces modèles peuvent être utilisés dans l'optimisation, la maximisation de certains effets et la minimisation d'autres effets. Les modèles de décision sont généralement utilisés pour développer une logique de décision ou un ensemble de règles métier qui produiront l'action souhaitée pour chaque client ou dans chaque circonstance.

Applications

Bien que l'analyse prédictive puisse être utilisée dans un grand nombre d'applications, quelques exemples où l'analyse prédictive a montré un impact décisif dans les années passées sont présentés ici.

Systèmes d'aide à la décision clinique

Les experts utilisent l'analyse prédictive dans le domaine de la santé principalement pour déterminer quels sont les patients susceptibles de développer des maladies telles que le diabète, l'asthme, les maladies cardiaques, et d'autres affections potentiellement dangereuses. De plus, les systèmes d'aide à la décision clinique incorporent l'analyse prédictive pour soutenir les décisions médicales. Une définition a été proposée par le Docteur Robert Hayward du Centre des Évidences de Santé : « Les systèmes d'aide à la décision clinique font le lien entre les observations et la connaissance clinique pour influencer les choix des cliniciens afin d'améliorer les services médicaux »[réf. nécessaire].

Recouvrement financier

Chaque portefeuille contient en son sein un ensemble de clients à risque qui ne remplissent pas leurs obligations à temps. L'institution financière doit entreprendre des actions de recouvrement pour encaisser les sommes dues. Un grand nombre de ressources est gaspillé pour des clients dont les sommes dues sont difficiles voire impossibles à recouvrir. L'analyse prédictive peut aider à optimiser les sommes allouées au recouvrement en identifiant les agences les plus efficaces, les stratégies de contact, les actions judiciaires et autres pour chaque client, afin d'augmenter le taux de recouvrement tout en réduisant les coûts[réf. nécessaire].

Souscription

Beaucoup de métiers ont à tenir compte de leur exposition aux risques en référence aux services qu'ils offrent et doivent déterminer le coût nécessaire à la couverture des risques. Par exemple les fournisseurs d'assurances automobiles ont besoin d'évaluer le montant de la prime d'assurance pour couvrir le risque couru par l'automobile et le conducteur. Une institution financière a besoin d'évaluer le potentiel et la capacité de remboursement de l'emprunteur avant l'accord de prêt. Pour un assureur santé, l'analyse prédictive peut aider à analyser les données du passé médical sur quelques années, aussi bien que tout autre information en provenance des laboratoires, pharmacies, et autres enregistrements disponibles, pour savoir le cout que l'assuré occasionnera dans le futur. L'analyse prédictive peut aider à la souscription de ces contrats en évaluant les probabilités de maladie, de défaut de paiement, de failliteetc. L'analyse prédictive peut rationaliser le processus d'acquisition de clients, en évaluant le comportement à risque du client en utilisant les données disponibles. L'analyse prédictive, dans son volet scoring a réduit le temps d'approbation d'une demande de crédit ou de prêt. Une analyse prédictive adéquates peut mener à des décisions de tarification adéquates qui peuvent aider à alléger les risques futurs de défaut de paiement, de remboursement , etc.

Prédiction de l'innovation

Il s'agit en premier lieu d'effectuer une extraction automatique des termes d'un domaine technique afin de mesurer quantitativement quels sont les termes utilisés dans l'histoire d'un domaine particulier et ceci concrètement à partir d'une archive de rapports techniques ou d'articles scientifiques. Ensuite, l'objectif est de calculer quels seront les termes qui seront populaires dans les prochaines années. L'étude publiée dans LREC en 2016 et appliquée au domaine du TALN au sein du projet NLP4NLP a montré qu'il est illusoire de prétendre prédire à plus de quatre ans [4].

Techniques statistiques

Les approches et techniques utilisées pour conduire l'analyse prédictive peut grandement être regroupées sous les techniques de régression et d'apprentissage automatique.

Modèles de régression

Les modèles de régression sont un pilier de l'analyse prédictive. Le point central réside dans la création d'équations mathématiques comme modèle pour représenter les interactions entre les différentes variables considérées. Selon la situation, il y a une large variété de modèles pouvant être appliqués. Quelques-uns sont présentés ci-dessous.

Modèle de régression linéaire

Modèle de régression linéaire simple

Le Modèle de régression linéaire analyse les relations entre la variable dépendante ou variable réponse et l'ensemble des variables indépendantes ou prédictives. Cette relation est exprimée comme une équation qui prédit les valeurs de la variable réponse comme une combinaison linéaire de paramètres. Ces paramètres sont ajustés de telle manière que l'estimation soit optimisée. La plus grande partie des efforts à faire pour estimer le modèle est concentrée sur la taille du résidu, ainsi que sur l'assurance qu'il est distribué aléatoirement en respectant les prédictions du modèle.

Le but de la régression est de sélectionner les paramètres du modèle de telle manière qu'ils minimisent la somme des résidus au carré. On se réfère à la Méthode des moindres carrés ordinaire (« ordinary least squares » (OLS)) et aux résultats des meilleures estimations linéaires non biaisées (« BLUE ») des paramètres si et seulement si l'hypothèse Gauss-Markov est remplie.

Une fois que le modèle est estimé, nous nous intéressons à l'appartenance des variables prédictives au modèle - c'est-à-dire, à savoir si l'estimation de chaque contribution des variables est fiable. Pour ce faire, nous pouvons vérifier la signification statistique des coefficients du modèle qui peut être mesurée par les tests T. Ceci revient à tester si le coefficient est significativement différent de zéro. Le test R² permet de savoir si la variable dépendante est correctement prédite par le modèle en fonction des valeurs des variables indépendantes. Ce test mesure le pouvoir de prédiction du modèle c'est-à-dire la proportion de la variation totale de la variable dépendante expliquée par la variation des variables indépendantes.

Modèle d'auto régression

Modèles à choix discret

La régression multivariée (ci-dessus) est généralement utilisée quand la variable réponse/expliquée est continue et s'étend dans un domaine infini. Souvent la variable expliquée n'est pas continue, mais discrète. Bien qu'en mathématiques il est réalisable d'appliquer une régression multivariée sur des variables dépendantes ordonnées et discrètes, certains des postulats de la théorie de la régression linéaire multivariée ne tiennent plus, et d'autres techniques telles que les modèles à choix discrets sont meilleurs pour ce type d'analyse. Si la variable dépendante est discrète, ces méthodes plus efficaces sont la régression logistique, les modèles régression logistique multinomiale (logit multinomial), et probit. Le premier et le dernier de ces modèles s'utilisent lorsque la variable dépendante est binaire.

La Régression logistique

Dans l'établissement d'une classification, assigner des probabilités de résultats aux observations peut être réalisé au travers de l'utilisation d'un modèle logistique, qui est fondamentalement une méthode transformant l'information sur la variable dépendante binaire en une variable continue illimitée estimée à l'aide d'un Modèle d'analyse multivariée ordinaire.

Le test de Wald et celui du ratio de vraisemblance sont utilisés pour évaluer la signification statistique de chaque coefficient b dans le modèle (d'une manière identique aux tests utilisés pour la Méthode des moindres carrés ordinaire, ci-dessus). L'exactitude (la précision) de l'estimation d'un modèle de classification peut être évaluée grâce à la validation croisée.

La Régression logistique multinomiale

Une extension du modèle logistique pour les cas où la variable réponse à plus de deux catégories est le modèle de la Régression logistique multinomiale. Dans cette configuration, forcer les données à entrer dans deux catégories seulement peut ne pas avoir de sens ou peut aussi conduire à une perte d'information et de richesse des données. Le modèle logistique multinomial est la technique appropriée dans ce cas-là, spécialement quand les catégories de la variable réponse ne sont pas ordonnées, comme les couleurs rouge, bleu, vert. Quelques auteurs ont prolongé la régression logistique multinomiale en y incluant des méthodes de sélection/importance de caractéristiques telle que la régression logistique multinomiale aléatoire

La Régression probit

Logit contre probit

Outils

Les outils d'analyses prédictives sont nombreux. Outre le fait qu'ils permettent de requêter et de manipuler des données, ils proposent chacun un choix plus ou moins denses de modèles prédictifs pouvant être déployés pour industrialisation si besoin. Les logiciels commerciaux SAS, SPSS (IBM), Neural Designer (Intelnics), STATISTICA (StatSoft), HyperCube[5] ou Sidetrade sont plutôt destinés aux entreprises, ou aux organismes ayant de gros volumes de données à explorer. Les logiciels libres OpenNN, R et Weka sont de bonnes alternatives pour les initiés.

Notes

  1. voir par exemple le site du CEDIP CEDIP, « Les différents modèles de prise de décision » (consulté le )

Références

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Predictive analytics » (voir la liste des auteurs).
  1. (en) Predictive Analytics World, « What is Predictive Analytics » (consulté le )
  2. (en) Predictive Analytics World, « Is this a "data mining" conference? » (consulté le )
  3. [PDF] (en) Charles Nyce, « predictive Analytics White paper » (consulté le )
  4. Predictive Modeling: Guessing the NLP terms of Tomorrow », Gil Francopoulo, Joseph Mariani, Patrick Paroubek, LREC 2016, [1]
  5. http://www.bearingpoint.com/fr-fr/7-5295/