Motif inévitable

Un article de Wikipédia, l'encyclopédie libre.

En informatique théorique, en combinatoire, et notamment en combinatoire des mots, un motif inévitable est un motif (au sens défini ci-dessous) qui apparaît dans tout mot assez long. Un motif est évitable sinon. Par exemple, le motif est inévitable sur deux lettres et évitable sur trois lettres, parce que tout mot assez long sur deux lettres contient un carré (composé de deux facteurs consécutifs égaux), et qu'il existe des mots arbitrairement longs sans carré sur trois lettres.

Les motifs évitables et inévitables généralisent la notion de répétition dans les mots, et leur étude s'inscrit dans celle des régularités dans les mots.

Définitions[modifier | modifier le code]

Soit un alphabet, et soit un autre alphabet, appelé l'alphabet des symboles de motifs ou des variables. Un motif est un mot non vide sur E. Un mot sur est une instance d'un motif s'il existe un morphisme non effaçant tel que . Un mot évite le motif si aucun facteur de n'est une instance de . Une définition équivalente est la suivante : le langage du motif est l'ensemble des mots , où est comme ci-dessus un morphisme non effaçant; un mot évite le motif si aucun facteur de n'est dans le langage de . Si n'évite pas le motif , on dit que rencontre ou contient une instance du motif [1].

Par exemple, le mot (où sont des lettres de ) rencontre le motif ( et sont des lettres de ); en effet, le facteur de est l'image de par le morphisme qui envoie sur et sur . Le facteur aussi est dans le langage du motif  : il est l'image de par le morphisme qui envoie sur et sur . Le mot évite le motif , puisqu'il ne contient pas de carré, c'est-à-dire pas deux facteurs consécutifs égaux[2].

Un motif est évitable s'il existe une infinité de mots sur un alphabet fini qui évitent . De manière équivalente, un motif est évitable s'il existe un mot infini qui évite . Dans le cas contraire, le motif est dit inévitable[2]. Par exemple, le motif est inévitable : tout mot assez long contient deux occurrences de la même lettre séparées par au moins une lettre.

Exemples[modifier | modifier le code]

  • La suite de Prouhet-Thue-Morse évite les motifs (elle est sans cube) et (elle est sans facteur chevauchant)[3],[2].
  • Les motifs et sont inévitables sur tout alphabet[4],[5].
  • Le motif est évitable sur trois lettres[3],[4]. Les mots qui évitent ce motif sont appelés mots sans carré[6],[2].
  • Les motifs pour sont évitables sur deux lettres : la suite de Prouhet-Thue-Morse est un exemple pour [3].
  • Les mots de Zimin (ou sesquipuissances) sont inévitables[5].
  • Tout mot de longueur au moins 29 sur 3 lettres contient une occurrence du motif

En arithmétique[modifier | modifier le code]

Il est possible de s'intéresser aux motifs inévitables contenus dans l'écriture décimale (ou dans d'autres bases de numération) de nombres appartenant à des sous-ensembles de l'ensemble des entiers naturels. Ainsi 14 est un motif inévitable de l'ensemble car les écritures des deux éléments de S contiennent les chiffres 1 et 4 dans cet ordre.

Nombres premiers inévitables[modifier | modifier le code]

On s'intéresse aux motifs inévitables contenus dans l'écriture des nombres premiers qui sont eux-mêmes des nombres premiers. Plus précisément, on cherche le plus petit ensemble de nombres premiers dont au moins l'un des éléments apparait dans l'écriture de tout nombre premier. On a alors les résultats suivants[7]:

  • en base 2 l'ensemble inévitable minimal des nombres premiers est [a];
  • en base 3 l'ensemble inévitable minimal des nombres premiers est [b];
  • en base 4 l'ensemble inévitable minimal des nombres premiers est [c];
  • en base 10 l'ensemble inévitable minimal des nombres premiers est .

Tout nombre premier écrit en base 10 contient l'un des motifs de l'ensemble donné ci-dessus. Par exemple 6 661 contient le motif 61.

Puissances de deux[modifier | modifier le code]

On s'intéresse aux motifs inévitables contenus dans l'écriture en base 10 des puissances de deux qui sont eux-mêmes des puissances de deux. Il est conjecturé que l'ensemble inévitable minimal des puissances de deux est[7]: .

Le motif ABACABA[modifier | modifier le code]

Ce motif est le point de départ d'études ou de recherches sur des objets auto-similaires, et donné lieu à plusieurs publications scientifiques ou plus ludiques[8], notamment

Indice d'évitabilité[modifier | modifier le code]

S'il existe un mot infini sur lettres qui évite un motif , le motif est dit -évitable. Sinon, il est -inévitable. Si est évitable, le plus petit entier tel que est -évitable, noté , est appelé l'indice d'évitabilité de [9]. Si est inévitable, son indice d'évitabilité est, par définition, . Par exemple, comme le motif est inévitable, son indice est . En revanche, l'indice d'évitabilité du motif est 3, car il existe un mot sans carré infini sur trois lettres, et il n'en existe pas sur deux lettres. Ainsi .

Pour les motifs binaires, sur deux variables et , on a[10],[11] :

  • sont inévitables;
  • les motifs ont l'indice d'évitabilité 3;
  • tous les autres motifs ont l'indice d'évitabilité 2.

Une variable qui n’apparaît qu'une fois dans un motif est dite isolée. On associe à un motif une « formule » en remplaçant dans chaque variable isolée par un point. Les facteurs entre des points sont appelés des fragments.

Une occurrence d'une formule dans un mot est un morphisme non effaçant tel que l'image par de chaque fragment de est un facteur de . Comme pour les motifs, l'indice d'évitabilité d'une formule est la taille du plus petit alphabet qui ne contient pas d'occurrence de la formule . Si est la formule associée à un motif , tout mot évitant évite aussi , et on a donc . S'il existe un mot infini qui évite , il existe aussi un mot infini récurrent qui évite . Ce mot récurrent évite aussi , de sorte qu'on a .

L'indice d'évitabilité de toute formule binaire, c'est-à-dire composée de deux variables, a été déterminé par Pascal Ochem et Matthieu Rosenfeld[12].

Une formule est dite divisible par une formule si n'évite pas , en d'autres termes s'il existe un morphisme non effaçant tel que l'image par de tout fragment de est un facteur d'un fragment de . Si est divisible par , alors tout mot évitant évite aussi , donc . Le retourné d'une formule et ont même indice d'évitabilité, donc . Par exemple, le fait que est 2-évitable implique que ou sont 2-évitables.

R. J. Clark a introduit[13] la notion de base de -évitabilité pour les formules : c'est le plus petit ensemble de formules tel que, pour tout indice , toute formule évitable à variables est divisible par une formule à au plus variables dans .

Une formule circulaire[14] est une formule dont chaque fragment est obtenu par une permutation circulaire des lettres du précédent, par exemple ou .

Clark a montré que l'index d'évitabilité est au plus 4 pour toute formule circulaire et pour toute formule de la base de 3-évitabilité, et donc pour toute formule évitable contenant au plus 3 variables. Cette propriété a été précisé par Gamard et al.[14]

Bornes sur les mots de Zimin[modifier | modifier le code]

Les mots de Zimin sont définis par récurrence par

et ,

sont des lettres. Les premiers mots sont :

On s'intéresse à la longueur des mots sur un alphabet à lettres qui contient en facteur une copie du mot de Zimin , c'est-à-dire une image du mot , où chaque lettre est remplacée par un mot non vide. Ainsi, le mot

est une copie de , de même est une copie de (en remplace au choix par et par , ou on laisse inchangé et on remplace par ). Plus généralement, contient deux copies de , et est une copie de obtenue en remplaçant les occurrences de la première lettre par .

On définit une fonction par :

est le plus petit entier tel que tout mot de longueur sur un alphabet à lettres contient en facteur une copie du mot de Zimin .

On a et . La deuxième égalité vient du fait que, par le principe du tiroir, au moins une lettre apparaît trois fois dans tout mot de longueur . La copie de consiste en la première et la troisième occurrence de cette lettre, le facteur non vide qui les sépare étant l'image de la lettre . D'autre part, la borne est atteinte puisque le mot de longueur ne contient pas de copie de .

Une relation de récurrences sur est donnée par la formule suivante de Cooper et Rorabaugh[15] :

.

Un mot de longueur se factorise en effet en mots, chacun de longueur séparés par une lettre. Chacun des facteurs de longueur contient une copie de . Comme il y en a , deux de ces facteurs sont égaux. Comme ces deux copies sont séparées par au moins une lettre, ceci fournit une copie de . On peut améliorer cette majoration dans le cas de 3 lettres[16] :

En fait, on a même[17] :

.

Des majorations et minorations pour d'autres cas font intervenir une fonction tour (tower en anglais) d'itération d'exponentiation, notée et définie par :

et .

Ainsi

, , , .

Avec ces notations, on a:

et aussi une minoration sous forme d'une tour d'exponentielles, même dans le cas d'un alphabet binaire[17],[18],[19] :

et (pour ).

Notes et références[modifier | modifier le code]

Notes[modifier | modifier le code]

  1. 10 et 11 sont bien des nombres premiers (ce sont les écritures binaires de deux et de trois). Le résultat découle de ce que tout nombre premier autre que 2 est impair.
  2. Ce sont les écritures ternaires de deux, de trois et de treize.
  3. Ce sont les écritures quaternaires de deux, de trois et de cinq.

Références[modifier | modifier le code]

  1. Cassaigne 2011, p. 112
  2. a b c et d Berstel et al. 2008, p. 127
  3. a b et c Cassaigne 2011, p. 113.
  4. a et b Allouche et Shallit 2003, p. 24.
  5. a et b Cassaigne 2011, p. 115.
  6. Cassaigne 2011, p. 114.
  7. a et b Pascal Boyer, Petit compagnon des nombres et de leurs applications, Paris, Calvage et Mounet, , 648 p. (ISBN 978-2-916352-75-6), II - Nombres premiers, chap. 1.7 (« Nombres premiers inévitables »), p. 195-197.
  8. En plus, ce sigle est également un nom commercial.
  9. Cassaigne 2011, p. 124.
  10. Cassaigne 2011, p. 126.
  11. Pacal Ochem, « A generator of morphisms for infinite words », RAIRO - Theor. Inform. Appl., vol. 40,‎ , p. 427-441.
  12. Pascal Ochem et Matthieu Rosenfeld, « Avoidability of Formulas with Two Variables », dans S. Brlek et C. Reutenauer (diteurs), Proceedings of the 20th international Conference, DLT 2016, coll. « Springer Lecture Notes in Computer Science » (no 9840), , 344-354 p. (DOI 10.1007/978-3-662-53132-7_28, arXiv 1606.03955).
  13. R. J. Clark, Avoidable formulas in combinatorics on words (PhD thesis), Los Angeles, University of California, (lire en ligne).
  14. a et b Guilhem Gamard, Pascal Ochem, Gwenaël Richomme et Patrice Séébold, « Avoidability of circular formulas », Theoretical Computer Science, vol. 726,‎ , p. 1-4 (DOI 10.1016/j.tcs.2017.11.014, arXiv 1610.04439).
  15. Cooper et Rorabaugh 2014.
  16. Rytter et Shur 2015.
  17. a et b Conlon, Fox et Sudakov 2017.
  18. Carayol et Göller 2017.
  19. Carayol et Göller 2019.
(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Unavoidable pattern » (voir la liste des auteurs).


Bibliographie[modifier | modifier le code]

Chapitres dans des livres
Articles
  • [2014] Joshua Cooper et Danny Rorabaugh, « Bounds on Zimin word avoidance », Congressus Numerantium, vol. 222,‎ , p. 87-95 (ISSN 0384-9864, MR 3328869).
  • [2015] Wojciech Rytter et Arseny M. Shur, « Searching Zimin patterns », Theoret. Comput. ci., vol. 571,‎ , p. 50-57 (DOI 10.1016/j.tcs.2015.01.004).
  • [2016] Joshua Cooper et Danny Rorabaugh, « Asymptotic density of Zimin words », Discrete Math. Theor. Comput. Sci., vol. 18, no 3,‎ , article no 3 (25 pages) (MR 3625459).
  • [2019] David Conlon, Jacob Fox et Benny Sudakov, « Tower-type bounds for unavoidable patterns in words », Transactions of the American Mathematical Society, vol. 372, no 9,‎ , p. 6213-6229 (DOI 10.1090/tran/7751, arXiv 1704.03479).
  • [2017] Arnaud Carayol et Stefan Göller, « On Long Words Avoiding Zimin Patterns », dans Heribert Vollmer et Brigitte Vallée (éditeurs), 34th Symposium on Theoretical Aspects of Computer Science (STACS 2017), coll. « Leibniz International Proceedings in Informatics (LIPIcs) » (no 66), (ISBN 978-3-95977-028-6, ISSN 1868-8969, DOI 10.4230/LIPIcs.STACS.2017.19, lire en ligne), p. 19:1-19:13.
  • [2019] Arnaud Carayol et Stefan Göller, « On Long Words Avoiding Zimin Patterns », Theory of Computing Systems, vol. 63, no 5,‎ , p. 926–955 (DOI 10.1007/s00224-019-09914-2).
Thèse