Nombre de Catalan

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher
Page d'aide sur l'homonymie Pour les articles homonymes, voir Catalan (homonymie).

En mathématiques, et plus particulièrement en combinatoire, les nombres de Catalan forment une suite d'entiers naturels utilisée dans divers problèmes de dénombrement, impliquant souvent de façon récursive des objets définis. Ils sont nommés ainsi d'après le mathématicien belge Eugène Charles Catalan (1814-1894).

Le nombre de Catalan d'indice n, appelé n-ième nombre de Catalan, est défini par

C_n = \frac{1}{n+1}{2n\choose n} = \frac{(2n)!}{(n+1)!\,n!} = \prod\limits_{k=2}^{n}\frac{n+k}{k} \qquad\mbox{ pour }n\ge 0.

(voir Coefficient binomial et Jacques Touchard). Les premiers nombres de Catalan (suite A000108 de l'OEIS) pour n = 0, 1, 2, 3, ... sont

1, 1, 2, 5, 14, 42, 132, 429, 1430, 4862 ...

Histoire[modifier | modifier le code]

La suite de Catalan fut décrite pour la première fois au XVIIIe siècle par Leonhard Euler, qui s'était intéressé au dénombrement des différentes façons de partager un polygone en triangles. La suite est nommée ainsi en l'honneur de Eugène Charles Catalan, qui découvrit la relation avec le parenthésage d'expressions pendant son étude du problème de la Tour de Hanoï.

La première publication sur ces nombres est due à Segner et la suite porte alors le nom de Nombre de Segner. Eugène Charles Catalan fit le lien avec le nombre d'expressions « parenthésées » et le nom de Catalan remplaça celui de Segner. L'astuce de comptage des mots de Dyck fut trouvée par Désiré André en 1887.

En 1988, dans la revue chinoise Neimenggu Daxue Xuebao, fut publié le fait que la suite des nombres de Catalan avait été utilisée en Chine par le mathématicien Antu Ming dès 1730, lors de l'écriture de son livre Ge Yuan Mi Lu Jie Fa, achevé par son élève Chen Jixin en 1774 et publié 60 ans plus tard. P.J. Larcombe esquissa en 1999 certaines des caractéristiques du travail de Antu Ming, comme le fait qu'il utilisa la suite des nombres de Catalan pour exprimer des expansions en séries de sin(2α) et sin(4α) en termes de sin(α).

Propriétés et comportement asymptotique[modifier | modifier le code]

Une autre expression pour Cn est

C_n = {2n\choose n} - {2n\choose n+1} \quad\text{pour }n\ge 0,

ce qui est équivalent à l'expression précédente car \tbinom{2n}{n+1}=\tfrac{n}{n+1}\tbinom{2n}n. Cela montre que Cn est un nombre naturel, ce qui n'est pas évident de prime abord à partir de la première formule.

Les nombres de Catalan satisfont aussi la relation de récurrence

C_0 = 1 \quad \mbox{et} \quad C_{n+1}=\sum_{i=0}^{n}C_i\,C_{n-i}\quad\text{pour }n\ge 0;

De plus,

C_n= \frac 1{n+1} \sum_{i=0}^n {n \choose i}^2

Cela est dû au fait que :  {2n\choose n} = \sum_{i=0}^n {n \choose i}^2 . Ils satisfont :

C_0 = 1 \quad \mbox{et} \quad C_{n+1}=\frac{2(2n+1)}{n+2}C_n,

ce qui peut être un moyen plus efficace pour les calculer.

La formule de Stirling permet de calculer un équivalent asymptotique de la suite des nombres de Catalan[1] :

C_n \sim \frac{4^n}{n^{3/2}\sqrt{\pi}}

Les seuls nombres de Catalan Cn impairs sont ceux pour lesquels n = 2k − 1. Tous les autres sont pairs.

Applications en combinatoire[modifier | modifier le code]

Il existe de nombreux problèmes combinatoires dont la solution est donnée par les nombres de Catalan. Les nombres de Catalan peuvent être interprêtés de différentes façon dont voici quelques exemples :

  • Cn est égal au nombre de mots de Dyck de longueur 2n.
  • Cn est également le nombre de façons différentes de placer des parenthèses autour de n+1 facteurs, pour préciser une expression faisant intervenir n fois une loi de composition interne non associative
  • Cn est le nombre de chemins monotones le long des arêtes d'une grille à n × n carrés, qui restent sous (ou au niveau de) la diagonale.
  • Cn est le nombre de trajectoires de longueur 2n+1 d'une marche aléatoire simple qui ont la propriété d'aller de la hauteur 0 à la hauteur 1 en restant négatif ou nul lors des 2n premières étapes.

Ces exemples peuvent être regroupés en deux groupes : les symétriques={les produits non associatifs, les arbres binaires entiers, les triangulations des polygones convexes, ...} et les latéralisés={les mots de Dyck, les chemins monotones sous la diagonale, les marches aléatoires positives, les arbres planaires, ...}. Il est relativement facile de construire des bijections entre deux ensembles du même groupe, mais il est moins évident de le faire entre un ensemble du premier groupe et un du second.

Mots de Dyck[modifier | modifier le code]

Un mot de Dyck est une chaîne de caractères formée de n lettres X et de n lettres Y, telle qu'aucun préfixe (mot obtenu en supprimant les dernières lettres à partir d'un rang quelconque) ne contienne plus de Y que de X. Autrement dit, lorsque nous parcourons un mot de Dyck de gauche à droite, le nombre de X rencontrés est toujours supérieur ou égal au nombre de Y. Par exemple, les mots de Dyck de la longueur 6 sont:

XXXYYY,\quad XYXXYY,\quad XYXYXY,\quad XXYYXY,\quad XXYXYY.

En l'occurrence, C3= 5.

Assimilant X à une parenthèse ouvrante et Y à une parenthèse fermante, un mot de Dyck de longueur 2n peut être vu comme une expression formée de n paires de parenthèses correctement assemblées : ((())), ()(()), ()()(), (())(), (()()) ; voir aussi Langage de Dyck. Les mots de Dyck peuvent être naturellement représentés comme des chemins dans un quadrillage de n+1 points par n+1 points, reliant certains points par les traits verticaux et horizontaux. Ces chemins commencent dans le coin inférieur gauche, et se terminent dans le coin supérieur droit, en allant toujours vers le haut ou vers la droite, mais ne passant jamais au-dessus de la diagonale principale. X représente alors un « déplacement vers la droite » et Y représente un « déplacement vers le haut ».
Nous pouvons compter les mots de Dyck avec l'astuce suivante due à Désiré André (principe de symétrie) : intéressons-nous aux mots contenant n X et n Y qui ne sont pas des mots de Dyck. Dans de tels mots, déterminons le premier Y qui brise la condition de Dyck, puis modifions toutes les lettres qui suivent ce Y, en échangeant X avec Y et vice versa. Nous obtenons un mot avec n+1 Y et n-1 X, et en fait tous les mots comportant n+1 Y et n-1 X peuvent être obtenus par ce moyen et de manière unique. Le nombre de ces mots est le nombre de façons de placer les n-1 X dans 2n emplacements et est égal à

{2n \choose n-1}

ce qui donne le nombre de mots qui ne sont pas de Dyck ; le nombre de mots de Dyck s'en déduit et est égal à

{2n \choose n}-{2n \choose n-1}

qui est le n-ième nombre de Catalan Cn.

Produits non associatifs[modifier | modifier le code]

Cn est le nombre de façons différentes de placer des parenthèses autour de n+1 facteurs, pour préciser une expression faisant intervenir n fois une loi de composition interne non associative. Pour n = 3 par exemple, nous obtenons 5 façons différentes de placer des parenthèses autour de 4 facteurs: a(b(cd)), a((bc)d), (ab)(cd), (a(bc))d, ((ab)c)d.

Triangulations d'un polygone[modifier | modifier le code]

Cn est aussi égal au nombre de façons de découper en triangles un polygone convexe à n+2 côtés en reliant certains de ses sommets par des segments de droite.

Pour n=3, un polygone à n+2 sommets est un pentagone : le nombre de ses triangulations est C3=5.

Arbres binaires entiers[modifier | modifier le code]

Cn est également le nombre d'arbres binaires entiers à n+1 feuilles (c'est-à-dire à 2n arêtes). La correspondance entre les produits non associatifs, les triangulations d'un polygone et les arbres binaires entiers est illustré sur l'image ci-dessous.

Illustration de la bijection entre les triangulation d'un polygone, les produits non associatifs et les arbres binaires (pour n=4).

Partitions non croisées[modifier | modifier le code]

Cn est également le nombre de partitions non croisées (en) de l'ensemble {1, ..., n }. A fortiori, Cn n'excède jamais le n-ième nombre de Bell.

Chemins sous-diagonaux dans le carré[modifier | modifier le code]

Cn est le nombre de chemins monotones le long des arêtes d'une grille à n × n carrés, qui restent sous (ou au niveau de) la diagonale. Un chemin monotone part du coin Sud-Ouest, arrive dans le coin Nord-Est, et est constitué d'arêtes dirigées à droite ou vers le haut. Un mot de Dyck encode un tel chemin de la manière suivante : X signifie « va à droite » et Y signifie « monte ». Les diagrammes ci-dessous représentent le cas n = 4 :

Catalan number 4x4 grid example.svg

Trajectoires de la marche aléatoire simple[modifier | modifier le code]

Bijection entre chemins et arbres planaires

Cn est le nombre de trajectoires de longueur 2n+1 d'une marche aléatoire simple qui ont la propriété d'aller de la hauteur 0 à la hauteur 1 en restant négatif ou nul lors des 2n premières étapes. On peut voir cela en faisant pivoter de 45 degrés le chemin entre les deux coins d'un carré décrit lors du premier exemple. C'est aussi le nombre de trajectoires de longueur 2n+2 allant de la hauteur 0 à la hauteur 0 en restant strictement positives lors des 2n+1 étapes intermédiaires, ou encore le nombre de trajectoires de longueur 2n allant de la hauteur 0 à la hauteur 0 en restant positives ou nulles lors des 2n-1 étapes intermédiaires. Dans ce dernier cas on peut coder la trajectoire par une suite de 2n + et de - (pour montée et descente), la condition de positivité se traduisant par le fait que cette suite est un mot de Dyck (car chaque préfixe a plus de montées que de descentes). Ainsi, pour la marche aléatoire simple, la probabilité que le premier temps de retour en 0, partant de 0, ait lieu à l'instant 2n+2, est \scriptstyle 2C_n p^{n+1}(1-p)^{n+1},\ le facteur 2 prenant en compte les trajectoires strictement négatives en plus des trajectoires strictement positives. De même, la probabilité que le premier temps d'atteinte de 1, partant de 0, ait lieu à l'instant 2n+1, est \scriptstyle C_n p^{n+1}(1-p)^{n}.\

Arbres planaires[modifier | modifier le code]

Cn est le nombre d'arbres planaires enracinés à n arêtes. La bijection avec les mots de Dyck, ou encore avec les trajectoires de marches aléatoires, est donnée très visuellement par un parcours extérieur de l'arbre. La trajectoire obtenue est le graphe de la fonction qui à chaque coin (secteur angulaire délimité par un sommet et deux arêtes contigües issues de ce sommet) associe la hauteur du sommet (la distance du sommet à la racine). Les coins sont parcourus dans l'ordre correspondant au parcours autour de l'arbre (voir figure ci-contre). Chaque sommet est visité autant de fois qu'il y a de coins issus de ce sommet, i.e. le nombre de visites à un sommet est le degré de ce sommet ; à titre d'exception, le nombre de visites à la racine est son degré plus un (plus le retour final à la racine, qui revient à visiter 2 fois le coin origine). Ainsi le nombre de pas de la marche est la somme des degrés du graphe, i.e. deux fois le nombre d'arêtes du graphe.

Bijection entre les 5 arbres à 3 arêtes (ligne supérieure), les 5 trajectoires positives de longueur 6 (ligne intermédiaire) et les mots de Dyck correspondants (ligne inférieure).

Bijections entre les exemples[modifier | modifier le code]

Les ensembles décrits plus haut qui sont à Cn éléments sont clairement en bijection les uns avec les autres.

Les bijections entre deux ensembles symétriques (Produits non associatifs, Triangulations d'un polygone, Arbres binaires entiers) sont décrits plus haut. De même les bijections entre deux ensembles latéralisés (Mots de Dyck, Chemins monotones sous la diagonale, Marches aléatoires positives, Arbres planaires) sont décrits dans les sections précédents. La bijection entre les arbres binaires entiers à 2n arêtes et les arbres planaires à n arêtes se fait en contractant soit les arêtes gauches, soit les arêtes droites de l'arbre binaire. D'où les appellations "symétriques" et "latéralisés".

Contractions gauche et droite d'un arbre binaire vers deux arbres planaires

L'image suivant illustre les différentes bijections avec un exemple concret :

Illustrations des différentes bijections entre les ensembles à Cn éléments (ici n=4).

Relations de récurrence[modifier | modifier le code]

C_0 = 1 \qquad \mbox{et pour}\quad n\ge 1 \qquad C_n=\sum_{i=0}^{n-1}C_i C_{n-1-i}

Ceci vient du fait que tout mot de Dyck w de longueur supérieure à 2 peut s'écrire de manière unique sous la forme

w= Xw_1Yw_2,

w1 et w2 désignent des mots de Dyck (éventuellement vides). La fonction génératrice des nombres de Catalan est définie par

c(x)=\sum_{n=0}^\infty C_n x^n

et en utilisant la relation de récurrence ci-dessus nous voyons que

c(x)=1+xc(x)^2\,

et par conséquent

c(x) = \frac{1-\sqrt{1-4x}}{2x}

avec par prolongation par continuité: c(0) = 1.

  • D'autre part, ils satisfont la relation de récurrence
C_0 = 1 \qquad C_n = \frac{2(2n-1)}{n+1} C_{n-1}.

qui permet aussi de retrouver la série génératrice, en effet, cette relation montre que c(x) est la solution de l'équation différentielle

 (x-4x^2) c'(x) + (1-2x) c(x) - 1 = 0\,

qui vaut 1 en 0.

Nombre de Catalan-Mersenne[modifier | modifier le code]

Les nombres de la forme c_n=2^{c_{n-1}} - 1, avec c_0 = 2 sont appelés nombres de Catalan-Mersenne.

Leur suite constituent un sous-ensemble infini des nombres doubles de Mersenne.

Les premières occurrences de cette suite sont (voir suite A077586 de l'OEIS) :

2, 3, 7, 127, 170 141 183 460 469 231 731 687 303 715 884 105 727, etc.

Ces cinq premières occurrences c0 à c4 sont des nombres premiers. Il n'est pas encore prouvé que c5 le soit aussi.

Matrice de Hankel[modifier | modifier le code]

La matrice de Hankel d'ordre n dont le terme (ij) est le nombre de Catalan Ci+j−2 a pour déterminant 1, indépendamment de la valeur de n.

Ainsi, pour n = 4, nous avons

\det\begin{pmatrix}1 & 1 & 2 & 5 \\ 1 & 2 & 5 & 14 \\ 2 & 5 & 14 & 42 \\ 5 & 14 & 42 & 132\end{pmatrix} = 1.

De plus, si les termes sont « décalés », en prenant les nombres de Catalan Ci+j−1, le déterminant est toujours 1, indépendamment de la valeur de n[2].

Ainsi, pour n = 4, nous avons

\det\begin{pmatrix}1 & 2 & 5 & 14 \\ 2 & 5 & 14 & 42 \\ 5 & 14 & 42 & 132 \\ 14 & 42 & 132 & 429 \end{pmatrix} = 1 .

La suite des nombres de Catalan est la seule suite de nombres[3] ayant cette double propriété.

Notes et références[modifier | modifier le code]

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Catalan number » (voir la liste des auteurs)

  1. On trouvera une analyse plus précise de ce développement asymptotique dans Analytic combinatorics, p.383
  2. En revanche, ce n'est plus le cas pour un décalage de 2 lignes : \det\scriptstyle\begin{pmatrix}\scriptstyle 2 & \scriptstyle5\\ \scriptstyle5 & \scriptstyle14\end{pmatrix} = 3.
  3. L'existence et l'unicité d'une telle suite se démontre aisément par récurrence, mais il est nettement moins aisé de vérifier qu'on obtient ainsi la suite des nombres de Catalan

Voir aussi[modifier | modifier le code]

Articles connexes[modifier | modifier le code]

Bibliographie[modifier | modifier le code]

Liens externes[modifier | modifier le code]