Ngram Viewer

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher
Logo de Ngram Viewer

URL http://books.google.com/ngrams
Description Service d’analyse Statistique
Commercial Oui
Publicité Non
Langue(s) Multilingue
Siège social Mountain View
Drapeau des États-Unis États-Unis
Propriétaire Google
Créé par Google
Lancement Juin 2010
État actuel En activité

Ngram Viewer est une application linguistique proposée par Google, permettant d’observer l’évolution de la fréquence d’un ou de plusieurs mots ou groupe de mots à travers le temps. L’outil est entré en service en 2010.

Le terme ngram désigne dans ce contexte une suite de « n » mots[1], ce qui n'est lié à la notion de n-gramme que de façon assez lâche.

Principe de fonctionnement[modifier | modifier le code]

L’outil Ngram de Google repose sur la base de données textuelle de Google Livres. Les textes issus de Google Livres sont classés en fréquence de séquences de mots (appelées ngrams) par années d’édition, chaque séquence de mots est alors affectée d’un « poids ».

Lorsque l'utilisateur demande une comparaison de plusieurs séquences de mots, l'outil trace alors des courbes permettant de comparer leur fréquence d'usage au cours du temps.

Intérêt et limites[modifier | modifier le code]

L’intérêt de Ngram est essentiellement de réaliser des études historico-linguistiques.

L’outil contient les limites suivantes (en particulier pour le français). Avant 1790, les « s » au milieu des mots s’écrivaient encore « ſ » (dit s long), les imparfaits « ait » s’écrivaient « oit », et ces quelques petites spécificités ainsi qu’une typographie irrégulière compromettent la pertinence des OCR sur des ouvrages du XVIe siècle au XVIIIe siècle. Ainsi l’équipe du projet d’OCRisation de la BNF considère que, sans une intervention humaine dans le processus de numérisation, on ne peut faire de recherches en plein texte fiables dans des ouvrages datant d’avant 1800[2]. Un autre défaut réside dans le fait qu’un ouvrage peu édité sera aussi représenté qu’un ouvrage à large diffusion. Par ailleurs, la fréquence d’utilisation d’un mot dans un même texte risque à nouveau de surpondérer les résultats pour ce mot, en particulier s’il est rare.

Notes et références[modifier | modifier le code]

Voir aussi[modifier | modifier le code]

Articles connexes[modifier | modifier le code]

Lien externe[modifier | modifier le code]