Discussion:Traitement automatique des langues

Une page de Wikipédia, l'encyclopédie libre.
Sauter à la navigation Sauter à la recherche
Autres discussions [liste]
  • Suppression
  • Neutralité
  • Droit d'auteur
  • Article de qualité
  • Bon article
  • Lumière sur
  • À faire
  • Archives

Fusion abandonnée entre Linguistique informatique et Traitement automatique du langage naturel[modifier le code]

Discussion transférée depuis Wikipédia:Pages à fusionner
Si on en croit les résumés introductifs, c'est la même chose. --Rinaku (d · c) 11 janvier 2013 à 23:58 (CET)

Pour. Je confirme, c'est la même chose. --Pierre Rudloff (d) 12 janvier 2013 à 03:42 (CET)
Pour Même chose. Je serais favorable à une fusion sous le titre traitement automatique du langage naturel qui est, d'après mon expérience, la formulation la plus usitée, du moins dans le monde académique. --Ænthaüs (d) 18 janvier 2013 à 11:16 (CET)
+1, je ne connaissais que cette seconde formulation. --Rinaku (d · c) 19 janvier 2013 à 15:01 (CET)
Pour, d'autant que l'association entre Linguistique informatique et Langage informatique me parait artificielle. Bmathis (d) 2 février 2013 à 16:15 (CET).
Contre La linguistique computationnelle (ou informatique) est la discipline scientifique qui étudie le phénomène linguistique (grammaire, sémantique, structure) avec des outils informatiques (règles chomskyennes, grammaires formelles, etc). Le Traitement Automatique du Langage Naturel est la discipline scientifique qui utilise des méthodes de traitement automatique au sens large (apprentissage automatique, classification, traitement du signal) pour réaliser des traitements sur le langage naturel (sous forme de corpus textuel ou audio): cela concerne par exemple la transcription (reconnaissance de la parole), la classification (classification de document textuels), l'étiquetage. Certains processus comme la traduction automatique (TA) peuvent être hybrides et utiliser les deux méthodes. Voir pour mieux comprendre la distinction Natural Language Processing (eq TAL) et Computational Linguistic (eq LC) sur Wikipedia en. Bublegun (d) 2 février 2013 à 17:30 (CET)
Si c’est vrai, alors le titre de l’article Linguistique informatique ne correspond pas à son contenu qui, lui, traite bien du TAL. Il faudrait donc fusionner le contenu de Linguistique informatique dans TAL mais laisser la page Linguistique informatique à l’état d'ébauche minimaliste. --Rinaku (d · c) 3 février 2013 à 12:06 (CET)
Je suis assez d'accord avec cela. Le contenu de Linguistique informatique est effectivement largement hors sujet et l'article mérite une réécriture. Bublegun (d) 4 février 2013 à 21:04 (CET)
 Neutre La discussion a déjà eu lieue sur wikipedia en. Pour beaucoup de spécialistes du domaine, les termes sont interchangeables, mais gardent une différenciation historique. Comme indiqué plus haut, le CL a une coloration plus linguistique, mais je doute que des chercheurs de l'un des deux domaines ne puisse pas publier dans l'autre. Dans le domaine académique, on trouve par exemple la conférence CICLing qui traite explicitement des deux domaines. Je me renseigne auprès de spécialistes pour me prononcer pour ou contre. Par contre, il faudra sûrement modifier le contenu pour bien expliciter les liens etre éventuelles différences si on garde les deux articles Xiawi (d) 3 février 2013 à 22:12 (CET)
Les conférences majeures sont effectivement souvent indifférenciées (telles Cicling que tu cites mais aussi TALN en France ou ACL) mais il en existe aussi d'autres plus spécialisées (telle CoNLL qui est orientée traitement automatique, ou INLG qui est elle très orientée Computational Linguistics). Et il y a effectivement beaucoup à faire sur ces deux articles (je veux bien aider).Bublegun (d) 4 février 2013 à 21:10 (CET)
Contre après discussion avec trois spécialistes du TAL (chercheurs actifs/publiant dans le domaine) je me rallie au point de vue de Bublegun. Si le TAL a grandement « vampirisé » les conférences citées, les deux disciplines se distinguent par leur but: le TAL vise à créer des outil de traitement de la langues pour diverses applications tandis que la linguistique computationnelle (ou informatique) vise à comprendre les langues au moyen d'outils informatiques. Les chercheurs publient dans des conférences plus « linguistique » (peut-être INLG justement, que je ne connais pas). Il faudrait donc revoir nettement l'article linguistique computationnelle afin d'expliciter ce point, et notamment la différencier du TAL dès l'introduction. Xiawi (d) 4 février 2013 à 23:59 (CET)
Contre je propose effectivement de regrouper le contenu de l'article linguistique informatique dans l'article TALN, mais d'écrire un article traitant vraiment de la linguistique informatique.

Je me propose de rédiger un nouvel article sur la linguistique informatique, plus complet. Si d'autres personnes ont ce projet à court terme, j'aimerais le savoir. Merci. --Annicolle (d) 8 avril 2013 à 16:38 (CEST)

En attendant la réécriture de l’article, je clos la demande. Si rien ne se passe d’ici quelque temps, on pourra toujours relancer la demande. Jerome66 (d) 17 avril 2013 à 13:02 (CEST)

L'entrée est un anglicisme[modifier le code]

Cette entrée est fautive. Oui, fautive, car il sagit ici de prescription et pas de description de l'usage, qui en l'occurrence devient d'ailleurs minoritaire, d'où l'étrangeté de cette entrée. La prescription fait bien partie des fonctions attribuées à une encyclopédie : établir la terminologie.

Il faudrait : Traitement automatique des langues (TAL), et pas du langage naturel qui est l'anglicisme visé ici.

C'est un anglicisme qui s'explique par l'imprécision de l'anglais sous deux aspects (eh oui, l'anglais n'est pas forcément plus précis, malgré l'idéologie ambiante). Mieux dit, le français vulgaire et scientifique désambigüise ici sous deux aspects.

1. En anglais, on ne fait pas la différence dans les termes entre langues parlées par les humains et langages de programmation. On use du même terme language, d'où désambigüisation par l'ajout de natural à l'adresse de la communauté informatique pour parler de TAL. Cette distinction est inutile en français puisque l'on parle soit de langue (parlée par les humains) soit de langage (de programmation). Il faut souligner que la communauté du domaine dit bien traitement automatique des langues (TAL). C'est le titre de la revue de l'association ATALA, même si pour des raisons historiques, la conférence annuelle continue d'utiliser TALN pour traitement automatique des langues naturelles, attention ici : pas du langage naturel (voir point suivant).

2. Le second anglicisme regrettable est que par langage naturel, on parle fautivement de langages au lieu de langues. Je redis bien fautivement. Aucun linguiste francophone moderne ne dit « langage français », « langage latin », « langage chinois », etc. [Voir note] En linguistique, les termes font soigneusement la différence entre

  • d'une part les langues (le français, le latin, le chinois, etc.) et
  • d'autre part le langage qui est la faculté qu'ont les êtres humains à parler des langues.

Encore une fois, l'anglais est imprécis ici et ne fait pas la distinction. En français, cette confusion malheureuse est faite par les chercheurs francophones ayant peu de lecture dans leur propre langue, c'est-à-dire ne connaissant bien ni la linguistique ni le TAL ou ayant exclusivement un bagage informatique [désolé et pardon].

Il est normalement du devoir d'une encyclopédie d'utiliser les termes de façon rigoureuse, sinon quelle est son intérêt ? On peut se demander si cette entrée n'a pas été créée sans aucune concertation avec des personnes du domaine.

[Note] Linguiste moderne, car on trouve bien l'expression aux XVIIe et XVIIe ; après tout l'anglais, et en particulier l'anglais scientifique, ne vient pas pour moitié du français pour rien... ; mais à l'époque on parlait de grammairiens et pas de linguistes. — Le message qui précède, non signé, a été déposé par l'IP 133.9.4.12 (discuter), le 21 février 2015 à 02:42‎.

« L'entrée est un anglicisme » : vous ne croyez pas si bien dire, « entrée » est effectivement un anglicisme (an entry), le français employant traditionnellement le terme « article » pour un dictionnaire, une encyclopédie, un répertoire... --Elnon (discuter) 7 mai 2018 à 13:47 (CEST)
Pour Je suis aussi pour le renommage de la page en Traitement automatique des langues. Elnon pouvez-vous contre-argumenter ?
Maggyero (discuter) 6 mai 2018 à 22:18 (CEST)
Les sources de la page emploient bien l'expression « langage naturel » en français et son équivalent en anglais natural language :
- Note 2 : Marc-Emmanuel Perrin, « Les machines progressent dans leur apprentissage du langage naturel », Mission pour la Science et la Technologie de l'Ambassade de France aux Etats-Unis, 22 septembre 2017 ;
- Note 3 : dans la rubrique « critère de Turing » du Dictionnaire de l'Informatique et de l'Internet 2001, Micro Application, 2000, p. 232 : « Des programmes avec dialogue en langage naturel ont été conçus pour répondre à ce critère » ;
- Note 8 : dans Robert Fenner, « Alibaba's AI Outguns Humans in Reading Text », Bloomberg.com,‎ 15 janvier 2018 : « Its natural language processing AI scored higher than humans » ;
- Note 9 : Christopher D. Manning, Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press, 1999 ;
- Note 13 : dans Gil Francopoulo, Joseph Mariani et Patrick Paroubek, « NLP4NLP: The Cobbler's Children Won't Go Unshod » : « Our research began by gathering a large corpus of Natural Language Processing (NLP) conferences and journals for both text and speech » ;
- Note 15 : dans Gil Francopoulo, Joseph Mariani, Patrick Paroubek, « A Study of Reuse and Plagiarism in LREC papers » : « the availability of archives allows us to study a vast amount of papers in our domain (i.e. Natural Language Processing, NLP, both for written and spoken materials) » ;
- dans la section 3.5.1, le nom de l'atelier est Rediscovering 60 years of Discoveries in Natural Languages Processing.
Il ne saurait donc être question d'abolir d'un trait de plume dans la page principale les expressions « langage naturel » et « traitement du langage naturel » alors qu'elles sont présentes dans les sources et que leur emploi est attesté depuis plus de cinquante ans. --Elnon (discuter) 7 mai 2018 à 13:32 (CEST)
Merci pour l'argumentation Elnon. Pouvez-vous rajouter la balise « Contre » puisque vous êtes contre le renommage ? Il nous faut maintenant d'autres avis pour pouvoir trancher.
Maggyero (discuter) 7 mai 2018 à 19:22 (CEST)
J'ajouterai que la proposition anonyme ci-dessus d'aligner le titre et le contenu de cette page de Wikipédia sur l'intitulé du nom de l'Association pour le traitement automatique des langues, me parait relever du POV pushing d'une argumentation personnelle. --Elnon (discuter) 8 mai 2018 à 10:39 (CEST)
Pour le renommage également. Citer l’expression en anglais pour montrer que l’expression en français n’est pas un anglicisime me parait un peu absurde. Ce qui ne fait que deux sources dans la liste d’Elnon
Après une rapide recherche web, les Universités Toulouse-2, Paris-3, Paris-7, Lorraine, Toulon et Franche-Comté parlent de TAL. Je n’ai trouvé que l’université de Nantes pour parler de « langage naturel ». Quelques autres sites web universitaires dont le CNRS parlent de TALN, mais toujours comme « langues naturelles » (et pas « langage »). —Pols12 (discuter) 23 avril 2019 à 04:22 (CEST)
Contre Le dictionnaire du CNRTL distingue les langages naturels des langages artificiels :
B. − Système de signes vocaux et/ou graphiques
1. Langages naturels : les langues parlées dans le monde
2. Langages artificiels, établis en fonction d'axiomes, de règles d'écriture
Voir http://www.cnrtl.fr/definition/langage --Elnon (discuter) 23 avril 2019 à 09:46 (CEST)
Cet article du TLF distingue deux définitions du terme « langage », celui qui est « naturel » et celui qui est « artificiel ». Mais ce n’est pas l’expression « langage naturel » qui est définie, aucun des exemples donnés dans cette acception de « langage » ne parle d’ailleurs de « langage naturel », mais uniquement de « langage » tout court. Ça prouve seulement que le terme de « langage » est dans certains contextes utilisé comme synonyme de « langue ». —Pols12 (discuter) 24 avril 2019 à 13:16 (CEST)
Ngram donne également TAL et Traitement automatique des langues bien plus utilisés que leurs homologues. —Pols12 (discuter) 11 mai 2019 à 14:41 (CEST)

Doublon ?[modifier le code]

Cet article ne serait pas un doublon, ou quasi-doublon à fusionner avec Compréhension du langage naturel ? — Vega (discuter) 30 juin 2020 à 13:56 (CEST)

Non, je ne pense pas : le TAL inclut la reconnaissance et la synthèse, la compréhension est bien distincte et le l’intro de l’article sur la Compréhension me parait claire en disant « est une sous-rubrique ». Le TAL est une discipline très vaste, il est probable que la plupart des sources un peu pointues se concentrent sur une des dimensions telle que la compréhension, donc je pense que les deux articles sont tout à fait admissibles. --Pols12 (discuter) 30 juin 2020 à 16:40 (CEST)
Merci Pols12, j'avais du mal à saisir les liens entre les deux. — Vega (discuter) 30 juin 2020 à 22:58 (CEST)