« Traitement automatique des langues » : différence entre les versions

Un article de Wikipédia, l'encyclopédie libre.
Contenu supprimé Contenu ajouté
Francopoulo (discuter | contributions)
wikif ; style encyclopédique
Ligne 23 : Ligne 23 :
Les utilisations statistiques du traitement du langage naturel reposent sur des méthodes [[stochastique]]s, [[probabiliste]]s ou simplement [[statistique]]s pour résoudre certaines difficultés discutées ci-dessus, particulièrement celles qui surviennent du fait que les phrases très longues sont fortement ambiguës une fois traitées avec des grammaires réalistes, autorisant des milliers ou des millions d'analyses possibles. Les méthodes de désambiguïsation comportent souvent l'utilisation de corpus et d'outils de formalisation comme les [[modèles de Markov]]. Le TAL statistique comporte toutes les approches quantitatives du traitement linguistique automatisé, y compris la modélisation, la [[théorie de l'information]], et l'[[algèbre linéaire]]<ref>Christopher D. Manning, Hinrich Schütze : ''{{lang|en|Foundations of Statistical Natural Language Processing}}'', MIT Press (1999), ISBN 978-0-262-13360-9, {{p.|xxxi}}</ref>. La technologie pour TAL statistique vient principalement de l'[[apprentissage automatique]] et le [[data mining]], tous deux en tant qu'ils impliquent l'apprentissage à partir des données venant de l'[[intelligence artificielle]].
Les utilisations statistiques du traitement du langage naturel reposent sur des méthodes [[stochastique]]s, [[probabiliste]]s ou simplement [[statistique]]s pour résoudre certaines difficultés discutées ci-dessus, particulièrement celles qui surviennent du fait que les phrases très longues sont fortement ambiguës une fois traitées avec des grammaires réalistes, autorisant des milliers ou des millions d'analyses possibles. Les méthodes de désambiguïsation comportent souvent l'utilisation de corpus et d'outils de formalisation comme les [[modèles de Markov]]. Le TAL statistique comporte toutes les approches quantitatives du traitement linguistique automatisé, y compris la modélisation, la [[théorie de l'information]], et l'[[algèbre linéaire]]<ref>Christopher D. Manning, Hinrich Schütze : ''{{lang|en|Foundations of Statistical Natural Language Processing}}'', MIT Press (1999), ISBN 978-0-262-13360-9, {{p.|xxxi}}</ref>. La technologie pour TAL statistique vient principalement de l'[[apprentissage automatique]] et le [[data mining]], tous deux en tant qu'ils impliquent l'apprentissage à partir des données venant de l'[[intelligence artificielle]].


== Les applications TAL ==
== Applications ==
Le champ du traitement automatique du langage couvre de très nombreuses disciplines de recherche qui peuvent mettre en œuvre des compétences aussi diverses que les mathématiques appliquées, le traitement du signal
Le champ du traitement automatique du langage couvre de très nombreuses disciplines de recherche qui peuvent mettre en œuvre des compétences aussi diverses que les mathématiques appliquées, le traitement du signal


Ligne 51 : Ligne 51 :
* la détection de [[Coréférence|coréférences]].
* la détection de [[Coréférence|coréférences]].


=== Bibliométrie ===
== La bibliométrie du TAL ==
La [[bibliométrie]] est l'utilisation du traitement automatique des langues sur des publications scientifiques.
La communauté du TAL est bien placée pour appliquer ses outils aux archives de son propre domaine: d'une part les outils sont à portée de main et d'autre part, les chercheurs connaissent le domaine et donc sont capables d'apprécier les résultats plus facilement que si le TAL était appliqué à un autre domaine.


==== Étude bibliométrique du TAL ====
La première étude d'envergure à été réalisée en 2013 à l'occasion de l'anniversaire de l'[[ACL]] avec un atelier intitulé "Rediscovering 50 Years of Discoveries in Natural Language Processing"<ref>Radev Dragomir R, Muthukrishnan Pradeep, Qazvinian Vahed, Abu-Jbara, Amjad (2013). The ACL Anthology Network Corpus, Language Resources and Evaluation 47: 919–944, Springer.</ref>.
La première étude d'envergure à été réalisée en [[2013 en science|2013]] à l'occasion de l'anniversaire de l'[[Articles à comité de lecture|ACL]] avec un atelier intitulé « ''{{Langue|en|texte=Rediscovering 50 Years of Discoveries in Natural Language Processing}}'' »<ref>Radev Dragomir R, Muthukrishnan Pradeep, Qazvinian Vahed, Abu-Jbara, Amjad (2013). The ACL Anthology Network Corpus, Language Resources and Evaluation 47: 919–944, Springer.</ref>.


Ensuite, aussi en 2013, a eu lieu l'action NLP4NLP<ref>NLP4NLP: The Cobbler's Children Won't Go Unshod, Gil Francopoulo, Joseph Mariani, Patrick Paroubek, D-Lib Magazine: The Magazine of Digital Library Research, November 2015[[http://www.dlib.org/dlib/november15/francopoulo/11francopoulo.html]]</ref>qui est une opération de bibliométrie d'application des outils de TAL aux archives du TAL depuis les années soixante jusqu'à nos jours par [[Joseph Mariani]], Gil Francopoulo et Patrick Paroubek. Il s'agit par exemple de déterminer automatiquement quels sont les inventeurs des termes techniques que nous utilisons actuellement<ref>Rediscovering 15+2 Years of Discoveries in Language Resources and Evaluation, Joseph Mariani, Patrick Paroubek, Gil Francopoulo, Oliver Hamon, LRE (Language Resources and Evaluation) Springer, DOI:10.1007/s10579-016-9352-9</ref>. Un autre champ d'étude est de déterminer quels sont les couper / coller (éventuels) que les chercheurs du TAL effectuent quand ils écrivent un article scientifique<ref>A Study of Reuse and Plagiarism in LREC papers, Gil Francopoulo, Joseph Mariani, Patrick Paroubek, LREC 2016, http://www.lrec-conf.org/proceedings/lrec2016/index.html</ref>.
La même année a eu lieu l'action {{Abréviation|NLP4NLP|Natural language processing for natural language processing|en}}<ref>{{En}} Gil Francopoulo, Joseph Mariani et Patrick Paroubek, « [http://www.dlib.org/dlib/november15/francopoulo/11francopoulo.html {{Langue|en|texte=The Cobbler's Children Won't Go Unshod}}] », dans ''D-Lib Magazine'', {{Date-|2=novembre|3=2015}} (consulté le {{Date-|12|juin|2016}}).</ref>, opération de bibliométrie d'application des outils de TAL aux archives du TAL depuis les années soixante jusqu'à nos jours par [[Joseph Mariani]], Gil Francopoulo et Patrick Paroubek. Il s'agit par exemple de déterminer automatiquement quels sont les inventeurs des termes techniques que nous utilisons actuellement<ref>{{Article|langue=en|prénom1=Joseph|nom1=Mariani|prénom2=Patrick|nom2=Paroubek|prénom3=Gil|nom3=Francopoulo|prénom4=Olivier|nom4=Hamon|titre=Rediscovering 15 + 2 years of discoveries in language resources and evaluation|périodique=Language Resources and Evaluation|volume=50|date=2016-04-01|issn=1574-020X|issn2=1574-0218|doi=10.1007/s10579-016-9352-9|lire en ligne=http://link.springer.com/article/10.1007/s10579-016-9352-9|consulté le=2016-06-12|pages=165–220}}</ref>. Un autre champ d'étude est de déterminer quels sont les [[Copier-coller]] éventuels que les chercheurs du TAL effectuent quand ils écrivent un article scientifique<ref>{{Chapitre|langue=en|auteur1=Gil Francopoulo|auteur2=Joseph Mariani|auteur3=Patrick Paroubek|auteurs ouvrage=Nicoletta Calzolari, Khalid Choukri, Thierry Declerck, Marko Grobelnik, Bente Maegaard, Joseph Mariani, Asuncion Moreno, Jan Odijk et Stelios Piperidis|titre ouvrage=Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016)|lieu=Portorož (Slovénie)|éditeur=European Language Resources Association (ELRA)|année=2016|pages totales=|isbn=978-2-9517408-9-1|lire en ligne=http://www.lrec-conf.org/proceedings/lrec2016/pdf/85_Paper.pdf|titre chapitre=A Study of Reuse and Plagiarism in LREC papers|passage=}}.</ref>.


== Voir aussi ==
== Voir aussi ==

Version du 13 juin 2016 à 00:29

Le traitement automatique du langage naturel ou de la langue naturelle (abr. TALN) ou des langues (abr. TAL) est une discipline à la frontière de la linguistique, de l'informatique et de l'intelligence artificielle, qui concerne l'application de programmes et techniques informatiques à tous les aspects du langage humain[1]. Ainsi, le TAL ou TALN est parfois nommé ingénierie linguistique.

Histoire

L'histoire du TAL commence dans les années 1950, bien que l'on puisse trouver des travaux antérieurs. En 1950, Alan Turing éditait un article célèbre sous le titre « Computing machinery and intelligence » qui propose ce qu'on appelle à présent le test de Turing comme critère d'intelligence. Ce critère dépend de la capacité d'un programme informatique de personnifier un humain dans une conversation écrite en temps réel, de façon suffisamment convaincante que l'interlocuteur humain ne peut distinguer sûrement — sur la base du seul contenu de la conversation — s'il interagit avec un programme ou avec un autre vrai humain.
L'expérience de Georgetown en 1954 comportait la traduction complètement automatique de plus de soixante phrases russes en anglais. Les auteurs prétendaient que dans un délai de trois ou cinq ans, la traduction automatique ne serait plus un problème[2].

Pendant les années 1960, SHRDLU, un système de langage naturel appelé « blocks world » dont la base était des vocabulaires relativement restreints, fonctionnait extrêmement bien, invitant les chercheurs à l'optimisme.
Cependant, le progrès réel était beaucoup plus lent, et après le rapport ALPAC (en) de 1966, qui constatait qu'en dix ans de recherches les buts n'avaient pas été atteints, l'ambition s'est considérablement réduite.

ELIZA était une simulation à la manière de la psychothérapie rogérienne, écrite par Joseph Weizenbaum entre 1964 à 1966. N'employant presque aucune information sur la pensée ou l'émotion humaine, ELIZA parvenait parfois à offrir un semblant stupéfiant d'interaction humaine. Quand le « patient » dépassait la base de connaissances (par ailleurs très petite), ELIZA pouvait fournir une réponse générique, par exemple, en réponse à « J'ai mal à la tête » dire « Comment cela se manifeste-t-il ? ».

Pendant les années 1970 beaucoup de programmeurs ont commencé à écrire des « ontologies conceptuelles », dont le but était de structurer l'information en données compréhensibles par l'ordinateur. C'est le cas de MARGIE (Schank, 1975), SAM (Cullingford, 1978), PAM (Wilensky, 1978), TaleSpin (Meehan, 1976), SCRUPULE (Lehnert, 1977), Politics (Carbonell, 1979), Plot Units (Lehnert 1981).

Pendant ce temps, beaucoup de chatterbots à la manière d'ELIZA ont été écrits comme PARADE, Racter, et Jabberwacky. Dès les années 1980, à mesure que la puissance informatique augmentait et devenait moins chère, les modèles statistiques pour la traduction automatique ont reçu de plus en plus d'intérêt.

TAL statistique

Les utilisations statistiques du traitement du langage naturel reposent sur des méthodes stochastiques, probabilistes ou simplement statistiques pour résoudre certaines difficultés discutées ci-dessus, particulièrement celles qui surviennent du fait que les phrases très longues sont fortement ambiguës une fois traitées avec des grammaires réalistes, autorisant des milliers ou des millions d'analyses possibles. Les méthodes de désambiguïsation comportent souvent l'utilisation de corpus et d'outils de formalisation comme les modèles de Markov. Le TAL statistique comporte toutes les approches quantitatives du traitement linguistique automatisé, y compris la modélisation, la théorie de l'information, et l'algèbre linéaire[3]. La technologie pour TAL statistique vient principalement de l'apprentissage automatique et le data mining, tous deux en tant qu'ils impliquent l'apprentissage à partir des données venant de l'intelligence artificielle.

Applications

Le champ du traitement automatique du langage couvre de très nombreuses disciplines de recherche qui peuvent mettre en œuvre des compétences aussi diverses que les mathématiques appliquées, le traitement du signal

Parmi les applications les plus connues, on peut citer celles en relation avec la production ou la modification de texte:

Les applications en relation avec le traitement du signal:

Les applications en relation avec l'extraction d'information:

Bibliométrie

La bibliométrie est l'utilisation du traitement automatique des langues sur des publications scientifiques.

Étude bibliométrique du TAL

La première étude d'envergure à été réalisée en 2013 à l'occasion de l'anniversaire de l'ACL avec un atelier intitulé « Rediscovering 50 Years of Discoveries in Natural Language Processing »[4].

La même année a eu lieu l'action NLP4NLP[5], opération de bibliométrie d'application des outils de TAL aux archives du TAL depuis les années soixante jusqu'à nos jours par Joseph Mariani, Gil Francopoulo et Patrick Paroubek. Il s'agit par exemple de déterminer automatiquement quels sont les inventeurs des termes techniques que nous utilisons actuellement[6]. Un autre champ d'étude est de déterminer quels sont les Copier-coller éventuels que les chercheurs du TAL effectuent quand ils écrivent un article scientifique[7].

Voir aussi

Articles connexes

  • Conférences TALN
  • LREC
  • LRE Map, base de données des ressources utilisées dans le TAL

Liens externes

Bibliographie

Références

  1. Charniak, Eugene: Introduction to artificial intelligence, page 2. Addison-Wesley, 1984.
  2. Hutchins, J. (2005).
  3. Christopher D. Manning, Hinrich Schütze : Foundations of Statistical Natural Language Processing, MIT Press (1999), ISBN 978-0-262-13360-9, p. xxxi
  4. Radev Dragomir R, Muthukrishnan Pradeep, Qazvinian Vahed, Abu-Jbara, Amjad (2013). The ACL Anthology Network Corpus, Language Resources and Evaluation 47: 919–944, Springer.
  5. (en) Gil Francopoulo, Joseph Mariani et Patrick Paroubek, « The Cobbler's Children Won't Go Unshod », dans D-Lib Magazine, (consulté le ).
  6. (en) Joseph Mariani, Patrick Paroubek, Gil Francopoulo et Olivier Hamon, « Rediscovering 15 + 2 years of discoveries in language resources and evaluation », Language Resources and Evaluation, vol. 50,‎ , p. 165–220 (ISSN 1574-020X et 1574-0218, DOI 10.1007/s10579-016-9352-9, lire en ligne, consulté le )
  7. (en) Gil Francopoulo, Joseph Mariani et Patrick Paroubek, « A Study of Reuse and Plagiarism in LREC papers », dans Nicoletta Calzolari, Khalid Choukri, Thierry Declerck, Marko Grobelnik, Bente Maegaard, Joseph Mariani, Asuncion Moreno, Jan Odijk et Stelios Piperidis, Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016), Portorož (Slovénie), European Language Resources Association (ELRA), (ISBN 978-2-9517408-9-1, lire en ligne).