Serveur vocal interactif

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher

Un serveur vocal interactif, ou SVI (en anglais Interactive Voice Response, ou IVR) est un système informatique capable de dialoguer avec un utilisateur par téléphone. Il est capable de recevoir et d'émettre des appels téléphoniques, de réagir aux actions de l'utilisateur (appui sur des touches du téléphone, reconnaissance vocale) selon une logique préprogrammée, diffuser des messages préenregistrés ou en synthèse vocale, et d'accéder à des bases de données d'autre part. Un serveur vocal interactif est généralement capable de traiter de nombreux appels simultanés indépendants.

Logique de fonctionnement[modifier | modifier le code]

Les entrées[modifier | modifier le code]

Un serveur vocal interactif peut utiliser de nombreuses données selon les besoins. Le premier type d'entrée utilisé très tôt dans leur histoire est la détection de l'appui de l'utilisateur sur des touches de son téléphone. Ces appuis génèrent des fréquences sonores qui correspondent à des codes DTMF, qui sont le plus souvent utilisées pour matérialiser des choix de l'utilisateur parmi un certain nombre de propositions pré-enregistrée.

Plus récemment, la maturité croissante des technologies de reconnaissance vocale permettent des interactions plus simples pour les utilisateurs qui peuvent dialoguer oralement avec le serveur, en se limitant généralement à des mots ou des commandes simples. La reconnaissance vocale de langues naturelles sert à interpréter les choix hors liste (réponses ouvertes) et les questions auxquels l'interlocuteur désire des réponses. Un des derniers développements, appelé Guided speech IVR, intègre à la fois un système informatique et des agents humains.

La reconnaissance vocale apporte un mode d'interaction à la fois plus naturel et plus pratique, mais surtout autorise la création de serveurs interactifs nettement plus riches. Ainsi, on voit apparaître des services de recherche pour les annuaires, à partir de la ville et du nom d'une personne, ce qui demeure impensable avec les codes DTMF.

Au-delà des données fournies explicitement par les utilisateurs, les serveurs vocaux interactifs sont capables d'utiliser des données implicites, comme le numéro de téléphone de l'utilisateur distant, le numéro composé par l'utilisateur (dans l'hypothèse ou le SVI répond sur plusieurs lignes distinctes) grâce au DNIS (Dialed Number Identification Service). Il peut aussi tenir compte de l'heure, du jour de la semaine, la durée d'attente de l'utilisateur...

Enfin, un SVI dispose souvent d'un accès à une base de données, ou à un système d'information, qui lui permet de mettre en corrélation des informations en provenance de l'utilisateur et des données de l'entreprise ou de l'organisation qui l'a déployé. La plupart des SVI récents s'interfacent nativement avec les principaux logiciels de gestion de la relation client (CRM, en anglais).

Les traitements[modifier | modifier le code]

Sur la base des données fournies en entrées, le serveur vocal interactif est capable de suivre une logique préprogrammée, le plus souvent sous la forme d'un arbre de décision qui permet par étapes successives d'atteindre le résultat souhaité par l'utilisateur ou par l'organisation qui a déployé le SVI.

Certains SVI peuvent être programmés visuellement, en dessinant ces arbres à l'aide de composants simples (message vocal, appui sur une touche, comparaison avec une valeur de la base de données...). Dans d'autres cas, des scripts de programmation ou des fichiers XML de configuration sont nécessaires.

Le serveur vocal interactif est utilisé pour dialoguer avec des utilisateurs dont les besoins sont potentiellement nombreux et complexes. Parfois la logique de programmation de ces SVI peut donc elle-même devenir très complexe, et faire appel à des notions d'algorithmique avancée ou même d'intelligence artificielle.

Une nouvelle génération de serveurs vocaux interactifs permet de traiter et de publier tous types de médias (sons, images, vidéos) et de données (base de données, fichiers textes, xml, pages web). Le VoiceXML, langage reconnu par le W3C, standardise les développements.

Les sorties[modifier | modifier le code]

La sortie principale d'un SVI est le message audio préenregistré (bande magnétique ou fichier audio).

Les dernières générations de systèmes utilisent la synthèse vocale pour générer dynamiquement certains énoncés, particulièrement s'ils sont simples, comme des montants, dates, heures ou autres valeurs numériques. Un autre système utilisé sont les chaînes concaténées de fichiers audio, dont la qualité reste supérieure mais qui ne permettent pas de traiter tous les textes. Le plus souvent, les systèmes utilisent un mélange des deux techniques.

De la même façon qu'un SVI est capable d'accéder à une base de données, il est capable d'y écrire, par exemple pour enregistrer une transaction ou pour conserver la trace d'une interaction avec l'utilisateur.

Enfin, le SVI peut être intégré à d'autres systèmes qui étendent ses capacités, comme par exemple un centre d'appel (le SVI peut alors transférer certains appels à certains opérateurs), un SMS Center (le SVI peut alors envoyer des SMS, voir réagir à la réception de SMS), un serveur mail (le SVI peut alors envoyer des email, voir réagir à la réception d'emails contenant des données spécifiques)

Utilisation[modifier | modifier le code]

Les serveurs vocaux interactifs peuvent être utilisés dans de nombreux services, tels que la banque, le rechargement d'un compte de téléphonie mobile, l'identification d'un appelant, vente par correspondance, accès aux services clients etc.

Les répondeurs classiques ne sont pas considérés comme serveurs vocaux interactifs tant que la communication ne va que dans un sens (l'appelant laisse un message) alors que les systèmes serveurs vocaux interactifs offrent une interaction à double sens. Les répondeurs plus récents sont des serveurs vocaux interactifs, car ils permettent une plus grande interaction, notamment dans la gestion des messages (consultation, suppression, archivage, etc.).

Plus généralement les serveurs vocaux interactifs sont utilisés comme porte d'entrée d'un centre d'appel pour identifier le service demandé par l'appelant ou traiter des demandes simples. Ils peuvent être utilisés pour amorcer la discussion avec des interlocuteurs appelés en masse lors d'une campagne d'appels sortants, parfois en attendant qu'un opérateur humain soit disponible. Cette dernière fonction étant à l'origine de nombreuses plaintes, des lois restrictives sont à l'étude pour limiter l'utilisation des SVI lors de telles campagnes.

Les serveurs vocaux interactifs sont souvent critiqués comme étant peu utiles et difficiles à utiliser à cause de leur programmation simpliste et leur manque de réactivité aux demandes des appelants. Une mesure courante de l'efficacité d'un système de serveurs vocaux interactifs est le nombre d'interactions nécessaire pour satisfaire le besoin de l'utilisateur (par exemple, le nombre minimum de questions pour établir la connexion de l'appelant avec le service désiré). On considère que dans un cas général, le public non-averti accepte de répondre à 2 question successives.

Notons qu'avec l'utilisation croissante des téléphones portables, un problème de taille est l'utilisation des serveurs vocaux interactifs dans des milieux parfois bruyants comme les rues, ce qui nécessite l'utilisation de modèles et de techniques plus robustes dans le traitement du son.

Perspectives[modifier | modifier le code]

Malgré les critiques portées à l'encontre des SVI depuis leur apparition (impersonnels, obtus, compliqués), les serveurs vocaux interactifs sont tirés par plusieurs forces puissantes qui expliquent leur croissance constante :

  • la croissance du secteur de lé téléphonie partout dans le monde, tirée par la baisse des coûts des appareils, du temps de communication, et la culture du temps réel
  • la démocratisation du téléphone mobile dans les pays en développement, où l'alphabétisation est encore faible et où la capacité à interagir oralement est une contrainte forte
  • leur capacité à être une source importante d'économie en remplaçant une part significative des opérateurs humains dédiés aux interactions téléphoniques pour les organisations en contact avec de nombreux interlocuteurs
  • leur intelligence croissante, leur permettant de rendre de plus en plus de services, et donc d'être plus en plus présents dans la vie de chacun. A ce titre, Siri ou Google Now sont des formes de serveurs vocaux interactifs directement embarqué dans des smartphones, qui fonctionnent sur une connexion 3G au lieu d'une connexion GSM.

Le serveur vocal interactif, à condition d'être réellement abouti en termes de reconnaissance vocale, d'intelligence artificielle et de synthèse vocale, est donc une interface homme-machine intéressante, offrant une convivialité naturelle sans nécessiter d'affichage, et donc particulièrement adaptée aux environnements nécessitant de laisser libre les mouvements et la vue des utilisateurs, comme la conduite de véhicule ou d'engin, ou les déplacements en règle générale.

Histoire[modifier | modifier le code]

Années 1990[modifier | modifier le code]

Durant la deuxième moitié des années 1990, avec la multiplication des ventes de modems bas débit, le serveur vocal amateur s'est démocratisé. Ceci parce que certains des modems étaient livrés avec des logiciels outils, dont une minorité étaient capables de faire office de répondeur téléphonique évolué, plus exactement de serveur vocal miniature (sur une seule ligne téléphonique, celle du modem). Ex: Infoback pro, FotoWin Pro de RTE Software. Ce logiciel avait pour principales utilités de permettre au modem d'assurer les fonctions de fax (télécopieur), d'accès au mode terminal (pour accès à des Bulletin board system), et en France de Minitel. À cette date (2012), la plupart de ces logiciels ont cessé d'être commercialisés. il existe quelques logiciels permettant de faire fonction de serveur vocal via le modem : IVRPhone (2008)[1].

Notes et références[modifier | modifier le code]

Articles connexes[modifier | modifier le code]

Sources[modifier | modifier le code]