Modèle uplift

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher

« Uplift » (Levier en français) désigne une génération de modèles statistiques employés en marketing quantitatif pour détecter les populations des consommateurs sensibles à une offre commerciale. Pour les opérations de marketing ciblées, « uplift » aide à identifier les groupes de personnes étant susceptibles de répondre positivement à une sollicitation marketing. Par là, cette technique permet de réduire le nombre de messages commerciaux émis, et donc le coût de la publicité. Elle est à la fois une amélioration des techniques marketing classiques et un complément aux techniques du data mining : scoring de propension et scoring anti-attrition, régressions et arbres de décision.


Généralité[modifier | modifier le code]

D'une manière générale, le modèle uplift est un moyen de prédire, avec un certain taux d'erreur, l'impact d'une action sur le comportement de quelqu'un[1]. Par exemple la méthode permet de connaitre la probabilité de changement de comportement d'achat d'un groupe de personnes après une campagne marketing direct[1]. C'est une technique d'exploration de données nouvellement appliquée dans les services financiers, les télécommunications et les industries du marketing direct de la vente au détail pour les activités d'up-sell, de vente additionnelle (« cross-sell ») ,de churn et de fidélisation.

Domaines d'application[modifier | modifier le code]

Lorsqu'on veut comprendre quelles actions marketing de fidélisation de clients déjà acquis sont les plus efficaces et dans quelles circonstances, la traçabilité des opérations marketing est essentielle. Les systèmes d'abonnements, de cartes de fidélité, de moyens de paiement, de codes coupons sont les instruments de traçabilité des clients et de mesure de l’efficacité des opérations de fidélisation.

Ces systèmes de traçabilité mesurent en particulier la proportion de consommation « naturelle » non sollicitée et/ou résultant d’opérations commerciales antérieures.

Un modèle uplift est adapté pour l'optimisation des coûts et rendements des campagnes marketing de fidélisation de gamme de produits qui peuvent être consommés ou souscrits naturellement (sans sollicitation commerciale) et en présence d'une traçabilité des comportements. Le modèle uplift maximise la consommation additionnelle générée par un traitement commercial par rapport à une consommation naturelle sans traitement. Par ailleurs, un modèle uplift donne ses meilleurs résultats lorsque les canaux de contacts peuvent être intrusifs et entraîner un risque de mécontentement des personnes contactées (effet boomerang négatif) : contact commercial par un centre d'appel, SMS, newsletter et emailing commercial assimilables à du spam avec des vagues de désinscriptions des clients.

L'uplift est employé principalement dans le domaine des télécommunications et média pour la vente croisée d'abonnements téléphonie/internet/télévision et les campagnes de lutte contre le churn, de la finance de détail pour les campagnes marketing de vente de produits bancaires ou d'assurances additionnels, les campagnes de prévention d'attrition visant à augmenter la durée de vie ou la valeur des clients, les campagnes de renouvellement de produits d'assurance ou de crédit et la grande distribution pour les campagnes promotionnelles et de fidélisation des détenteurs de cartes de fidélité.

Groupe de contrôle et segmentation[modifier | modifier le code]

Les responsables marketing des organisations gèrent un ou plusieurs échantillons (de taille limitée) de clients « groupe de contrôle » qui ne sont pas inclus dans les opérations commerciales. L’échantillon de contrôle fait partie des bonnes pratiques de mesure et ciblage marketing. Il permet de mesurer l’efficacité des actions de marketing relationnel, de détecter leurs éventuels impacts négatifs et d’améliorer le ciblage.

La présence d'un échantillon de contrôle ("placebo") de taille suffisante et aléatoirement distribué autorise la mesure et le ciblage de l’uplift.

En croisant, les deux mesures de la consommation avec et sans traitement, on peut schématiquement identifier quatre catégories de clients. Tout d'abord, les personnes qui réagissent négativement à un traitement marketing sont dénommées les réfractaires. L’action commerciale génère un effet boomerang négatif sur ce segment, qui va à l'encontre de l'effet souhaité. Ces personnes n'achètent pas parce qu'elles ont été sollicitées pour un achat. Ensuite, nous pouvons définir les causes acquises qui sont des groupes de personnes fidèles consommant indépendamment des circonstances et actions commerciales. Les causes perdues consomment peu, quels que soient les efforts commerciaux consentis. Enfin, les groupes influençables répondent positivement à l’opération commerciale[2].

L’effort marketing doit porter sur les seuls clients influençables[2]. Les efforts de fidélisation n’ont pas d’impact ou même un impact parfois négatif pour les trois autres catégories. L’opération marketing qui privilégie le ciblage sur la valeur des clients très réceptifs maximise son retour sur investissement.

Mesure de la performance[modifier | modifier le code]

Par les deux modèles[modifier | modifier le code]

Un premier modèle peut estimer la probabilité de consommer sur la base d’un historique de clients soumis à une action : PCT = Prob (Consommation | traitement). Un second modèle est bâti sur l’historique de clients qui n’ont pas été soumis à une activité de fidélisation : PCN = Prob (Consommation | aucun traitement).

L’Uplift est la différence entre ces deux probabilités (Uplift = PCT-PCN). Il peut s’exprimer en différentiel de taux de visite, de taux de souscription, de taux d’achat, de taux de d'attrition ou encore de montant moyen consommé. Si par exemple pour un groupe de clients ciblé, la consommation moyenne post opération vaut 220 € quand ils sont traités et 200 € lorsqu’ils ne sont pas traités, l’uplift vaut 20 €.

Un score de ciblage de l’uplift est construit en exploitant les informations clients disponibles (notées X) en amont de l’opération commerciale : Score U = Prob (Consommation |X ; traitement) - Prob (Consommer |X ; aucun traitement)[3]

L'approche de l'uplift par les deux modèles fonctionne cependant assez mal dans la pratique. Deux raisons expliquent ces difficultés :

Tout d'abord, les amplitudes entre la consommation naturelle et l’uplift des consommations additionnelles générées par l’opération commerciale ne sont en général pas comparables. Nous pouvons par exemple observer un uplift de consommation additionnelle de 20 € pour une consommation naturelle de 200€. Dans cette hypothèse d’un uplift significatif mais marginal par rapport à la consommation naturelle, les modèles statistiques classiques détectent bien des signaux principaux de variabilité de la consommation naturelle. Ils détectent beaucoup moins bien ou pas du tout le signal caché de l’uplift (10 %). L’approche d’estimation de l’uplift par les deux modèles, l’un construit sur les populations traitées (générant 220 €) et l’autre non traitées (générant 200€), a donc tendance à écraser l’analyse spécifique de l’uplift en se concentrant sur la consommation naturelle.

Ensuite, l’objectif de l’approche par les deux modèles n’est pas directement corrélé à l’uplift. Il n’y a aucune raison de penser que les facteurs principaux de variabilité de l’Uplift soient les mêmes que ceux de la consommation naturelle. La sensibilité à l’action marketing (=uplift) n’a pas de raison d’être liée à la fidélité des clients en particulier pour les canaux intrusifs (Emailing, SMS ...).

Par les forêts d'arbres de décision[modifier | modifier le code]

La problématique de l'uplift en marketing est proche de celle de l'épidémiologie. L'épidémiologiste compare la fréquence d’une maladie au sein d'un groupe de personnes exposées à un traitement médicamenteux par rapport à celle d’un groupe de personnes non exposées ou exposées à un placebo.

Lo[4],[5] propose de modéliser l'uplift pour des opérations de fidélisation sur cartes de fidélité en ajoutant un terme d'interaction à chacune des variables explicatives. Il ajuste une régression statistique à l'aide de ces interactions². Pour l'utilisation du modéle et le calcul de la prédiction d'uplift, il soustrait les consommations calculées entre le modèle avec variable de traitement égale à 1 et le modèle avec variable de traitement égale à 0.

Une approche originale de segmentation de l'uplift à l'aide d'arbres de décision a été initiée par Surry et Radcliffe en 1999[6].

L’uplift n’est pas mesurable pour un individu activé lors de l’opération commerciale. En revanche en présence d’un groupe de contrôle l’uplift est mesurable par groupe d’individus. Surry et Radcliffe[7] proposent de comparer des sous-groupes d’individus activés aux mêmes sous groupes non activés de l’échantillon de contrôle.

Ils adoptent une méthodologie de construction d’arbres binaires à l'aide de la séquence suivante :

  • Modélisation automatique des variables explicatives de l'uplift par utilisation de la technique de « bining » : par défaut 10 groupes de taille équivalente en nombre d’individus pour chaque variable explicative quantitative ;
  • Création d'un tableau de contingence de l’ensemble des combinaisons binaires des modalités de l’ensemble des variables explicatives croisées avec la variable d’intérêt et le critère d’appartenance au groupe de contrôle ;
  • Mesure de l’Uplift sur chaque combinaison des explicatives regroupées binairement ;
  • Identification des 2 sous-groupes de populations pour lesquels les écarts d’uplift sont maximums. Le critère de mesure de l’écart est paramétrable ;
  • Différenciation des deux résultats, ce qui nous donne une estimation de l’uplift par individu de chaque groupe ;
  • Élagage de l'arbre : calcul du modèle et simulation de l'uplift sur un nombre important d'échantillons de validation. Suppression des nœuds et segments terminaux pour lesquels la variance de l'uplift est importante  ;
  • On recommence l’opération pour développer l’arbre par itération.

La technique est consolidée par la production de multiples variantes de cet arbre. L’objectif est de trouver un bon compromis entre performances d’identification de l’uplift et reproductibilité (robustesse) des calculs. Plusieurs gammes de modèles sont construits sur la base de a1 tirages aléatoires d’échantillons de validation/construction. Une seconde gamme de paramètres permet de faire des variantes de modélisation sur la taille des segments terminaux (feuille de l’arbre) (a2).La technique de bootstrap (bagging) est utilisée pour construire a3 arbres distinctes. Chacun de ces arbres est défini à partir d’un sous échantillon bootstrap[8] N/a3 (avec N = taille totale des echantillons traité et de contrôle). L’uplift d’une personne est la moyenne des uplift calculés sur ces a3 segments terminaux. Au final une forêt d'arbres de décision[9] comprenant a1*a2*a3 modèles différents est établie et permet d'évaluer a1*a2 variantes de modélisation. L'arbitrage entre les différent arbres est fait à l'aide du critère du Qini[10], une transposition de l'indicateur de Gini adapté à la méthode uplift. On choisit l’arbre possédant le meilleur Qini.

Difficultés connues[modifier | modifier le code]

Il semble que les modèles uplift doivent être rafraîchis plus souvent que les autres. Ils ont besoin de groupes de contrôles de qualité et sont parfois difficiles à interpréter[1]

Références[modifier | modifier le code]

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Uplift modelling » (voir la liste des auteurs)

  1. a, b et c (en) Portrait Software, « « Uplift modeling FAQs » »,‎ 2011 (consulté le 1er septembre 2011)
  2. a et b (en) Portrait Software, « « How does uplift modeling work? » »,‎ 2011 (consulté le 5 septembre 2011)
  3. [PDF](en) Nicolas Radcliffe, « «  Generating incremental sales » »,‎ 2007 (consulté le 05 septembre 2011)
  4. V. S. Y. Lo, 2002. The true lift model. ACM SIGKDD Explorations Newsletter, 4(2):78–86.
  5. V. S. Y. Lo., 2005. Marketing data mining – new opportunities. In J. Wang, editor, Encyclopedia of Data Warehousing and Mining. Idea Reference Group.
  6. Radcliffe N. J. & Surry, P. D. (1999). Differential response analysis: Modelling true response by isolating the effect of a single action. Proceedings of Credit Scoring and Credit Control VI. Credit Research Centre, University of Edinburgh Management School.
  7. [PDF](en) Nicholas J. Radcliffe, Patrick D. Surry, « « Real-World Uplift Modelling with Significance-Based Uplift Trees (,Portrait Technical Report TR-2011-1) » »,‎ 2011 (consulté le 6 septembre 2011)
  8. (en) communauté wiki, « « Bootstrap_aggregating » »,‎ 2011 (consulté le 7 septembre 2011)
  9. (en) communauté wiki, « « Random forest » »,‎ 2011 (consulté le 7 septembre 2011)
  10. P. D. Surry and N. J. Radcliffe, 2011. Quality measures for uplift models. submitted to KDD2011.

Voir aussi[modifier | modifier le code]

Liens externes[modifier | modifier le code]

Vidéos[modifier | modifier le code]

Sites internet[modifier | modifier le code]

Bibliographie[modifier | modifier le code]