Aller au contenu

Combinatoire des mots

Un article de Wikipédia, l'encyclopédie libre.
Construction de la suite de Prouhet-Thue-Morse.

La combinatoire des mots est une branche des mathématiques et de l'informatique théorique qui applique l'analyse combinatoire aux mots finis ou infinis. Cette branche s'est développée à partir de plusieurs branches des mathématiques : la théorie des nombres, la théorie des groupes, les probabilités et bien sûr la combinatoire. Elle a des liens avec divers thèmes informatiques, comme l'algorithmique du texte, la recherche de motifs et la compression de textes.

Champs d'étude et applications

[modifier | modifier le code]

La combinatoire des mots a pour objet d'étude les propriétés de mots finis ou mots infinis particuliers. Ceci est à comparer à la théorie des langages formels, qui s'intéresse aux ensembles de mots, en vue de leur représentation et leur analyse.

Pour une classe de mots, l'étude porte sur les caractérisations équivalentes, les propriétés combinatoires, le dénombrement, l'énumération systématique ou la génération aléatoire. On étudie aussi les algorithmes et leur efficacité pour la réalisation effective de ces opérations.

La combinatoire des mots a des applications dans des domaines variés de l'informatique théorique, comme la théorie des automates et de la linguistique. Le développement du texte numérique et du traitement de texte a amené à d'importants développements de la combinatoire des mots. Elle est présente à la base de l'algorithmique du texte, du traitement automatique du langage naturel, du traitement de la parole et du bio-informatique.

La combinatoire des mots remonte aux travaux d'Axel Thue sur les suites non-répétitives de symboles, au début du XXe siècle. Les principaux travaux, dans les années qui ont suivi, sont ceux de Marston Morse et de ses coauteurs sur la suite de Prouhet-Thue-Morse et les mots sturmiens. Une célèbre application de la combinatoire des mots est l'usage qui est fait d'une suite sans répétition dans la réponse négative à la conjecture de Burnside apportée par Piotr Novikov et Adian.

C'est Marcel-Paul Schützenberger qui est le fondateur de la combinatoire des mots moderne, notamment dans des travaux avec Roger C. Lyndon et André Lentin. Ses cours ont été rédigés par Jean-François Perrot, et ont donné naissance au livre « Combinatorics on words », ouvrage collectif signé du nom de plume M. Lothaire, et paru en 1983. La combinatoire des mots se développa rapidement à partir de cette date. Deux autres livres de synthèse, signés Lothaire, paraissent ultérieurement, et plusieurs ouvrages collectifs prennent leurs suite.

Mots de Lyndon

[modifier | modifier le code]

Les mots de Lyndon, nommés ainsi d'après le mathématicien Roger Lyndon, sont les mots primitifs et minimaux dans leur classe de conjugaison. L'un des résultats de base est que tout mot admet une factorisation décroissante unique en mots de Lyndon (résultat attribué par erreur à Chen, Fox et Lyndon). Un autre résultat remarquable est que le produit, en ordre croissant, des mots de Lyndon dont la longueur divise un entier donné est un mot de de Bruijn.

Répétitions

[modifier | modifier le code]

La combinatoire des mots s'est notamment attachée à décrire les conditions dans lesquelles les répétitions apparaissent dans les mots (mots sans carré, entre autres), la construction ou la transformation des mots, par morphisme. Un cas plus général est couvert par la notion de motif inévitable ou son contraire, les motifs évitables. Par exemple le « motif » (où et sont des symboles) dénote la présence, dans un mot, d'un facteur de la forme (où cette fois-ci, et sont des mots). Dire qu'un mot évite ce motif, c'est qu'il ne contient pas ce facteur. Dire qu'un motif est inévitable, c'est affirmer que tout mot assez long contient un facteur de la forme décrite par le motif. Le motif est inévitable, le motif est évitable, même sur deux lettres.

La notion de répétition est étendue comme suit aux répétitions fractionnaires : la période (aussi appelée période minimale) d'un mot est le plus petit entier tel que pour . L'exposant du mot est le quotient de sa longueur par sa période. Par exemple, le mot entente a période 3, il est d'exposant 7/3. L'exposant critique d'un mot infini, qui est le plus grand exposant d'un facteur du mot, dépend de la nature du mot. Un thème similaire est la couverture d'un mot par un motif ; les mots qui admettent une telle couverture sont dits mots quasi-périodiques.

L'existence d'un seuil pour les répétitions fractionnaires a été conjecturé par Françoise Dejean en 1972 ; la démonstration de ce fait est le théorème de Dejean.

La notion de répétition est aussi étendue aux répétitions dites abéliennes : ainsi un carré abélien est un mot est une anagramme de , c'est-à-dire égal à à une permutation des lettres près ; par exemple est un carré abélien. On peut montrer que des cubes abéliens peuvent être évités sur 3 lettres[1], mais que les carrés abéliens ne sont évitables que sur 4 lettres[2].

Une répétition maximale (en anglais un run)dans un mot est un facteur d'exposant au moins égal à 2 et qui ne peut être étendue en une répétition plus longue. Le nombre total de répétitions maximales dans un mot de longueur est au plus égal à . Ce résultat, appelé le théorème des répétitions maximales, aussi appelé le « théorème des runs » a été démontré en 2015.

Mots sans carré et sans puissances

[modifier | modifier le code]

Un carré est un mot composé de deux parties égales consécutives, comme « bonbon » ou « papa ». En bio-informatique, un carré est appelé une répétition en tandem. Un mot sans carré est un mot qui ne contient pas de facteur carré. Par exemple, le mot « consécutivement » est un mot sans carré. Plus généralement, un mot sans cube et un mot sans puissance -ième est un mot qui ne contient pas de cube ou de puissance -ième en facteur. Il existe des mots infinis sans carré sur tout alphabet d'au moins trois lettres, comme l'a prouvé Axel Thue. Sur un alphabet à deux lettres, un tel mot n'existe pas. Le mot de Prouhet-Thue-Morse contient des carrés, en revanche il est sans cube.

Une majoration du nombre de carrés distincts (ou plus généralement de puissances d'un exposant fixe) qui sont facteurs d'un mot donné est un problème posé en 1998 par Fraenkel et Simpson, et a conduit a plusieurs développements sans être entièrement résolu[3],[4].

Complexité combinatoire d'un mot

[modifier | modifier le code]
Le mot de Fibonacci, caractérisé par une droite de pente ou avec , le nombre d'or

Il existe plusieurs manières de cerner la complexité d'une suite infinie de symboles. Intuitivement, ces notions doivent indiquer à quel point une suite est « compliquée » ou « complexe », ou « aléatoire », ou « chaotique ». La complexité algorithmique est une mesure qui évalue combien elle est difficile à construire. Cette difficulté est mesurée par la taille du programme nécessaire pour la construire, ou par temps qu’il faut pour calculer son n-ième terme. La théorie algorithmique de l'information fondée par Kolmogorov, Solomonoff et Chaitin aborde ces problèmes. La complexité de Kolmogorov d’une suite est la taille du plus court programme sur une machine de Turing qui engendre cette suite. La notion est relié aussi à la compressibilité d’une séquence.

Une autre mesure, plus arithmétique ou combinatoire, est la complexité « en facteurs », en anglais « subword complexity », appelé aussi complexité combinatoire. Elle mesure le nombre de facteurs qu'un mot possède pour chaque longueur. Formellement, la fonction de complexité d'un mot fini ou infini est la fonction qui, pour chaque entier , compte le nombre de facteurs (ou blocs) de longueur dans ce mot. Pour un mot infini , un résultat dû à Ethan M. Coven et Gustav Hedlund dit que si pour un entier , alors le mot est ultimement périodique. Les mots infinis apériodiques de complexité minimale ont donc une fonction de complexité égale à . Ce sont les mots sturmiens. Le plus connu des mots sturmiens est le mot de Fibonacci. Des mesures voisines sont la complexité palindromique qui mesure le nombre de palindromes, ou la complexité arithmétique.

Le terme de « complexité combinatoire », en opposition à la complexité algorithmique, est assez récent : on le trouve par exemple chez Jean-Paul Allouche[5] ou Michel Rigo[6].

Mots automatiques

[modifier | modifier le code]

Les mots automatiques sont des suites que l'on peut définir à l'aide d'automates finis. La suite de Prouhet-Thue-Morse est l'exemple paradigmatique de cette famille. Les pliages de papiers en sont un autre exemple.

Mots morphiques

[modifier | modifier le code]

Un mot morphique est un mot infini obtenu par itération d'un morphisme, suivi de l'application d'un deuxième morphisme. En absence du deuxième morphisme, on parle de mot purement morphique. C'est une méthode très efficace et répandue de construction de mots infinie. Elle est « robuste » en ce sens qu'elle est stable par toute sorte d'opérations. Par exemple, le mot de Fibonacci infini est un mot purement morphique, la suite de Prouhet-Thue-Morse également. La suite caractéristique des carrés : 11001000010000001000... est morphique, mais n'est pas purement morphique.

La conjecture de Billaud est une conjecture sur la possibilité de caractériser un mot fini par certains de ses sous-mots.

Mots de Toeplitz et de Stewart

[modifier | modifier le code]

Un mot de Toeplitz est un mot infini obtenu par un processus itératif qui est décrit par une suite d'une ou plusieurs règles d'interclassement dits « motifs de Toeplitz ». Les plus connues de ces mots sont la suite des suite de pliage de papier et la suite chorale de Stewart.

Complexité abélienne

[modifier | modifier le code]

La complexité abélienne d'un mot fini ou infini est la fonction qui compte le nombre de facteurs de longueur donnée dans ce mot, à permutation de lettres près. C'est une autre mesure de la complexité combinatoire d'une suite.

Équations entre mots

[modifier | modifier le code]

Une équation de mots ou une équation entre mots (en anglais word equation) est un couple de mots, usuellement écrit sous la forme d'une équation

.

Ici, et sont des mots composés lettres qui sont des constantes ou des variables. Les constantes sont écrits en minuscules, les variables en majuscules. Par exemple, l'équation

contient quatre occurrences de la variable , et des constantes et . Une solution d'une équation est un ensemble de mots sans variables, un pour chaque variable, tel que la substitution des mots aux variables rend les deux composantes de l’équation identiques. Par exemple, pour (et plus généralement pour avec , les deux côtés de l'équation deviennent égaux, à (et plus généralement à ).

Un célèbre théorème de Makanin[7],[8] dit qu'il est décidable si une équation de mots, et plus généralement un ensemble d'équations de mots, possède une solution. En cela, les équations de mots se distinguent des équations diophantiennes pour lesquels l'existence de solutions est indécidable par le théorème de Matiiassevitch résolvant le dixième problème de Hilbert.

Un problème lié est la description de toutes les solutions d'une équation donnée, sous forme paramétrée en général. La première étude systématique dans cette direction est faite par Hmelevskii[9].

Récurrence

[modifier | modifier le code]

Un mot infini est récurrent si tout facteur de apparaît une infinité de fois dans .

  • Le mot n'est pas récurrent.
  • Le mot de Champernowne binaire formé de la concaténation des développements binaires des entiers naturels est récurrent.
  • Un mot ultimement périodique et récurrent est périodique.

Un mot infini est uniformément récurrent ou à lacunes bornées si deux occurrences consécutives d'un facteur de sont à distance bornée. Plus précisément, pour tout facteur de , il existe une constante telle que deux occurrences consécutives de dans sont à distance au plus .

  • Le mot de Champernowne binaire n'est pas uniformément récurrent. En effet, deux occurrences consécutives du symbole peuvent être séparées par des séquences arbitrairement longues de .
  • Le mot de Fibonacci est uniformément récurrent. Par exemple, les occurrences du chiffre dans ce mot infini sont les éléments de la suite A001950 de l'OEIS, soit 2, 5, 7, 10, 13, 15, 18,... La distance entre deux consécutifs est donc au plus 3.
  • Le mot de Thue-Morse est uniformément récurrent.

Il y a un lien entre les mots uniformément récurrents et les ensembles syndétiques. Un ensemble d'entiers naturels est appelé syndétique s'il existe un entier tel que pour deux entiers consécutifs de , on ait . Un mot infini est donc uniformément récurrent si, pour tout facteur de , l'ensemble des débuts d'occurrence de dans est syndétique.

La fonction de récurrence d'un mot infini donne la valeur maximale des lacunes entre occurrences consécutives de mots d'une longueur donnée. Plus précisément, est le plus petit entier tel que tout facteur de de longueur soit facteur de tout facteur de longueur de , formellement On peut voir l'entier comme la largeur minimale d'une fenêtre que l'on glisse sur le mot et qui a la propriété que tout facteur de longueur figure toujours dans la section couverte par la fenêtre.

  • Pour le mot de Fibonacci, on a , et ; en effet, le facteur du mot de Fibonacci ne contient pas le facteur , mais tout facteur de longueur 6 contient les trois facteurs parce que n'est pas facteur du mot de Fibonacci.

Fonction de récurrence de la suite de Prouhet-Thue-Morse

[modifier | modifier le code]

Pour le mot de Thue-Morse , on a (tout facteur de longueur 3 contient un et un ) et (le facteur ne contient pas ). En fait, la fonction de récurrence a été calculée par Morse et Hedlund, dès 1938[10]. Les premières valeurs sont données dans la table suivante :

Fonction de récurrence de la suite de Prouhet-Thue-Morse
1 2 3 4 5 6 7 8 9 10
3 9 11 21 22 41 42 43 44 81

C'est la suite A179867 de l'OEIS. La formule de récurrence est toute simple : pour , on a . Il en résulte la forme close suivante. Posons , avec . Une telle écriture est toujours possible pour . Alors .

Fonction de récurrence du mot infini de Fibonacci

[modifier | modifier le code]

Cette fonction de récurrence a une expression un peu moins simple, et elle est connue depuis l'article de Morse et Hedlund de 1940. On a est l'entier tel que . Ici, les sont les nombres de Fibonacci avec .

Fonction de récurrence du mot infini de Fibonacci
1 2 3 4 5 6 7 8 9 10
3 6 10 11 17 18 19 28 29 30

C'est la suite A183545 de l'OEIS. Cette formule s'étend à tous les mots sturmiens.

Notes et références

[modifier | modifier le code]
(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Combinatorics on words » (voir la liste des auteurs).
  1. F.M Dekking, « Strongly non-repetitive sequences and progression-free sets », Journal of Combinatorial Theory, Series A, vol. 27, no 2,‎ , p. 181–185 (ISSN 0097-3165, DOI 10.1016/0097-3165(79)90044-X)
  2. Veikko Keränen, « Abelian squares are avoidable on 4 letters », Lecture Notes in Computer Science, vol. 623 : Automata, Languages and Programming. ICALP,‎ , p. 41–52 (ISSN 0302-9743, DOI 10.1007/3-540-55719-9_62).
  3. Aviezri S. Fraenkel et Jamie Simpson, « How many squares can a string contain? », J. Comb. Theory, Sér. A, vol. 82, no 1,‎ , p. 112-120 (zbMATH 0910.05001).
  4. Shuo Li, « On the number of k-powers in a finite word », Advances in Applied Mathematics, vol. 139,‎ , article no 102371 (DOI 10.1016/j.aam.2022.102371, arXiv 2203.16742).
  5. Jean-Paul Allouche, « Surveying some notions of complexity for finite and infinite sequences », RIMS Kôkyûroku Bessatsu, B34 : Functions in number theory and their probabilistic aspects, Kyoto, Res. Inst. Math. Sci. (RIMS),‎ , p. 27-37 (MR MR3014836, lire en ligne).
  6. Michel Rigo, Formal Languages, Automata and Numeration Systems, vol. 1, John Wiley & Sons, , 336 p. (ISBN 978-1-84821-615-0 et 1848216157).
  7. Makanin 1977.
  8. Diekert 2002.
  9. Hmelevskii 1976.
  10. Allouche & Shallit (2003), pages 328-331, et Morse & Hedlund (1938), pages 834-839.

Articles connexes

[modifier | modifier le code]

Bibliographie

[modifier | modifier le code]
Histoire
  • Jean Berstel et Dominique Perrin, « The origins of combinatorics on words », European Journal of Combinatorics, vol. 28,‎ , p. 996–1022 (lire en ligne).
  • Dominique Perrin, « Les débuts de la combinatoire des mots », séminaire EHESS,‎ (lire en ligne).
Articles de synthèse
  • [1992] Klaus Ulrich Schulz (éditeur), Word equations and related topics, Springer-Verlag, , 256 p. (ISBN 978-3-540-55124-9, lire en ligne) — Actes du colloque IWWERT '90, Tübingen, Allemagne, 1-
  • [1997] Christian Choffrut et Juhani Karhumäki, « Combinatorics of words », dans G. Rozenberg, A. Salomaa (éditeurs), Handbook of Formal Languages, vol. 1 : Word, Language, Grammar, Springer Verlag, (ISBN 978-3-540-60420-4, présentation en ligne), p. 329-438
  • [2002] Volker Diekert, chap. 12 « Makanin's Algorithm », dans M. Lothaire, Algebraic Combinatorics on Words, Cambridge University Press, coll. « Encyclopedia of Mathematics and its Applications » (no 90), , p. 387–442.
  • [2003] Jean Berstel et Juhani Karhumäki, « Combinatorics on words - a tutorial », Bull. Eur. Assoc. Theor. Comput. Sci. (EATCS), vol. 79,‎ , p. 178-228 (lire en ligne).
  • [2004] Juhani Karhumäki, « Combinatorics on words: a new challenging topic », TUCS Technical Report, no 645,‎ (lire en ligne).
  • [2015] Dominique Perrin et Antonio Restivo, « Words », dans Miklos Bona (éditeur), Handbook of Enumerative Combinatorics, Chapman and Hall/CRC, , 1086 p. (ISBN 9781482220865, présentation en ligne, lire en ligne)
Lothaire
Berthé — Rigo
  • Valérie Berthé et Michel Rigo (éditeurs), Sequences, groups, and number theory, Birkhäuser, coll. « Trends in Mathematics », , xxvi+576 (ISBN 978-3-319-69151-0)
  • Valérie Berthé et Michel Rigo (éditeurs), Combinatorics, words and symbolic dynamics, Cambridge, Royaume Uni, Cambridge University Press, coll. « Encyclopedia of Mathematics and its Applications » (no 159), , 496 p. (ISBN 978-1-107-07702-7)
  • Valérie Berthé et Michel Rigo (éditeurs), Combinatorics, automata and number theory, Cambridge University Press, coll. « Encyclopedia of Mathematics and its Applications » (no 135), , 615 p. (ISBN 978-0-521-51597-9, lire en ligne)
Monographies
Textes historiques
  • Gennadiy S. Makanine, « The problem of solvability of equations in a free semigroup », Math. Sbornik (N.S.), vol. 103, no 2,‎ , p. 147-236, 319 (MR 0470107) — Article complet, en russe. Traduction anglaise : Math. USSR Sbornik 32 (1977)