Lemme de Zorn

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher

En mathématiques, le lemme de Zorn (ou théorème de Zorn, ou parfois lemme de Kuratowski-Zorn) est un théorème de la théorie des ensembles qui affirme que si un ensemble ordonné est tel que toute chaîne (sous-ensemble totalement ordonné) possède un majorant, alors il possède un élément maximal. Le lemme de Zorn est équivalent à l'axiome du choix modulo les axiomes de la théorie des ensembles de Zermelo-Fraenkel.

Le lemme de Zorn permet d'utiliser l'axiome du choix sans recourir à la théorie des ordinaux (ou à celle des bons ordres via le théorème de Zermelo). En effet, sous les hypothèses du lemme de Zorn, on peut obtenir un élément maximal par une définition par récurrence transfinie, la fonction itérée étant obtenue par axiome du choix. Cependant, les constructions par récurrence transfinie sont parfois plus intuitives (quoique plus longues) et plus informatives.

Le lemme de Zorn a des applications aussi bien en topologie, comme le théorème de Tychonov, qu'en analyse fonctionnelle, comme le théorème de Hahn-Banach, ou en algèbre, comme le théorème de Krull ou l'existence d'une clôture algébrique.

Il doit son nom au mathématicien Max Zorn qui, dans un article de 1935, en donnait le premier un grand nombre d'applications, en redémontrant des résultats connus d'algèbre. Cependant Kazimierz Kuratowski en avait déjà publié une version en 1922, et plusieurs mathématiciens, à commencer par Felix Hausdorff en 1907, avaient introduit des principes de maximalité proches du lemme de Zorn.

Ensemble inductif[modifier | modifier le code]

Un ensemble ordonné tel que toute chaîne (sous-ensemble totalement ordonné) possède un majorant est souvent appelé ensemble inductif. Le lemme de Zorn devient :

Lemme de Zorn — Tout ensemble inductif admet au moins un élément maximal.

L'ensemble des parties d'un ensemble E muni de l'inclusion est un exemple d'ensemble inductif : E est un majorant de toute chaîne (pour l'inclusion) de parties de E, qui ne présente cependant pas d'intérêt pour le lemme de Zorn, puisque E est également un élément maximal.

Par contre on obtient des applications utiles en choisissant un sous-ensemble adéquat de l'ensemble des parties de E (toujours muni de l'inclusion), qui doit alors être inductif, la réunion des éléments de la chaîne (non vide) peut fournir un candidat pour le majorant.

Prenons le cas de l'ensemble I(E,F) des graphes d'injections partielles de E dans F, où E et F sont deux ensembles quelconques : ce sont les sous-ensembles G de E × F vérifiant :

Si (x,y) ∈ G et (x,y’) ∈ G, alors y = y’
Si (x,y) ∈ G et (x’,y) ∈ G, alors x = x’ .

L'ensemble I(E,F) muni de l'inclusion est un ensemble inductif. En effet ∅ ∈ I(E,F) et majore la chaîne vide. Une chaîne non vide est majorée par la réunion de ses éléments qui est bien le graphe d'une injection partielle car deux couples de la réunion sont nécessairement dans un même élément de la chaîne (puisque celle-ci est totalement ordonnée). On déduit du lemme de Zorn l'existence d'un élément maximal, dont il n'est pas difficile de vérifier qu'il est le graphe d'une injection de E dans F, ou d'une injection de F dans E (cas non exclusifs).

On a donc montré qu'étant donné deux ensembles quelconques, il existait une injection de l'un dans l'autre ou réciproquement : c'est le théorème de comparabilité cardinale[1].

Variantes[modifier | modifier le code]

Il existe plusieurs variantes du lemme de Zorn, les unes portent sur les conditions que doit vérifier l'ensemble ordonné, pour posséder un élément maximal : on peut les voir comme des variantes sur la définition d'ensemble inductif, qui n'est d'ailleurs pas entièrement fixée dans la littérature, même si, dans ce contexte[2] celle donnée ci-dessus reste la plus courante. D'autres variantes restreignent le lemme de Zorn à un ensemble de parties d'un ensemble muni de l'inclusion, restrictions qui s'avèrent en fait facilement équivalentes à l'énoncé initial[3].

Variations sur la définition d'ensemble inductif[modifier | modifier le code]

En un sens précisé ci-dessous, un ensemble non vide partiellement ordonné sera dit inductif si toute partie non vide « au moins totalement ordonnée » admet un « majorant ou mieux ». Les candidats usuels pour préciser « au moins totalement ordonnée » sont :

1) totalement ordonnée
2) bien ordonné

tandis que ceux pour « majorant ou mieux » sont

3) majorant
4) borne supérieure

d'où quatre définitions voisines mais distinctes, la moins restrictive correspondant à (2,3) et la plus restrictive à (1,4). Comme l'acception la plus courante correspond au cas du couple (1,3), nous l'avons pris comme définition (à noter que l'existence d'un majorant de la chaîne vide équivaut simplement à ce que l'ensemble soit non vide) :

Un ensemble inductif est un ensemble partiellement ordonné où toute chaîne (partie totalement ordonnée) admet un majorant.

Pour beaucoup d'applications du lemme de Zorn la définition (1,4), qui est la plus restrictive, s'utilise naturellement, même si elle donne un énoncé en apparence plus faible. C'est le cas par exemple de l'application à la comparabilité cardinale du paragraphe précédent : la réunion des éléments de la chaîne n'est pas seulement un majorant mais une borne supérieure. La notion peut aussi être utile dans d'autres contextes[4]. Un ensemble non vide tel que toute chaîne non vide admet une borne supérieure (choix (1,4)) est parfois appelé, ensemble strictement inductif[5], mais on trouve également la dénomination d'ensemble inductif sans autre précision[6].

C'est bien sûr la définition la moins restrictive qui donne le meilleur énoncé du lemme de Zorn. Même si l'énoncé habituel correspond au choix du couple (1,3) dans la définition d'ensemble inductif, le couple (2,3) donne un énoncé (apparemment) plus fort, parfois bien utile.

Principes de maximalité pour l'inclusion[modifier | modifier le code]

Le lemme de Zorn peut se particulariser pour la relation d'inclusion sur un ensemble d'ensembles. Un candidat naturel pour le majorant d'une chaîne pour l'inclusion est la réunion des éléments de cette chaîne. Il s'agit alors forcément de la borne supérieure de la chaîne. On obtient ainsi comme conséquence du lemme de Zorn l'énoncé suivant, qui lui est en fait équivalent, et qui est l'énoncé de l'article de 1935 de Max Zorn[7] :

Lemme de Zorn pour l'inclusion. — Si un ensemble non vide d'ensembles ^\mathcal{A} est tel que la réunion de toute chaîne non vide pour l'inclusion d'éléments de ^\mathcal{A} est encore un élément de ^\mathcal{A} , alors ^\mathcal{A} possède un élément maximal pour l'inclusion.

Pour l'application à la comparabilité cardinale (voir ci-dessus), on était déjà dans ce cas particulier (^\mathcal{A} est l'ensemble des graphes d'injections partielles de E dans F). C'est en fait un cas particulier de la version (1,4) du lemme de Zorn. On a un énoncé analogue en termes de chaînes bien ordonnées par l'inclusion (cas particulier de la version (2,4)), qui est l'énoncé de l'article de 1922 de Kuratowski[8].

Si (E, ≤) est un ensemble ordonné, l'ensemble ^\mathcal{A} des chaînes de E (pour l'ordre de E) est lui-même un ensemble ordonné par inclusion. Si ^\mathcal{C} est une chaîne de ^\mathcal{A} pour l'inclusion, alors il est simple de montrer que la réunion des éléments de ^\mathcal{C}, qui sont des chaînes de (E, ≤), est encore une chaîne de (E, ≤). On obtient ainsi une version du principe de maximalité de Hausdorff (en) (ou théorème de maximalité de Hausdorff).

Principe de maximalité de Hausdorff. — Tout ensemble ordonné contient une chaîne (c'est-à-dire un sous-ensemble totalement ordonné) maximale pour l'inclusion (c'est-à-dire qui n'est contenue strictement dans aucune chaîne).

Si de plus l'ensemble ordonné est inductif (au sens initial (1,3)), la chaîne maximale en question possède un majorant, qui est forcément un plus grand élément de la chaîne, et de l'ensemble lui-même (sinon on pourrait prolonger la chaîne qui ne serait pas maximale pour l'inclusion). On déduit donc le lemme de Zorn (version (1,3) initiale) du principe de Hausdorff. On a donc démontré l'équivalence des énoncés du lemme de Zorn pour des chaînes totalement ordonnées (versions (1,3), (1,4), lemme de Zorn pour l'inclusion et principe de Hausdorff).

Chaînes bien ordonnées[modifier | modifier le code]

On peut également déduire les versions du lemme de Zorn pour les chaînes bien ordonnées (versions (2,3) et (2,4)) du principe de maximalité de Hausdorff. Cependant, pour l'ordre de l'inclusion, une chaîne de chaînes bien ordonnées n'a pas nécessairement de borne supérieure. On les compare par segment initial : soit un ensemble ordonné (E, ≤), on dit, pour deux chaînes bien ordonnées de (E, ≤) C1 et C2, que C1 est un segment initial de C2 quand :

x ∈ C1 y ∈ C2 (yxy ∈ C1).

On vérifie facilement que la relation « être un segment initial » est une relation d'ordre sur l'ensemble ^\mathcal{A} des chaînes bien ordonnées de E, tel que tout ensemble non vide ^\mathcal{C} de chaînes bien ordonnées, lui-même totalement ordonné par segment initial, à un majorant, et même une borne supérieure, qui est la réunion des chaînes de cet ensemble totalement ordonné ^\mathcal{C}, et qui est encore une chaîne bien ordonnée de (E, ≤). L'ensemble ^\mathcal{A} (non vide car il contient au moins la chaîne vide) est donc un ensemble inductif au sens habituel (et même au sens (1,4)).

On peut donc déduire du lemme de Zorn habituel (ou même version (1,4)) que l'ensemble des chaînes bien ordonnées d'un ensemble ordonné (E, ≤) possède une chaîne bien ordonnée maximale pour l'ordre par segment initial. Si on suppose maintenant que (E, ≤) est un ensemble inductif au sens (2,3) (le plus restreint), c'est-à-dire que tout chaîne bien ordonnée de (E, ≤) possède un majorant, on a alors un majorant m pour une chaîne bien ordonnée de E maximale pour l'ordre par segment initial. Ce majorant m est nécessairement un élément maximal de E, car, si ça n'était pas le cas, un élément strictement supérieur à ce majorant permettrait de prolonger la chaîne maximale en une chaîne bien ordonnée, dont la chaîne maximale serait alors un segment initial, ce qui contredit la maximalité.

On a donc démontré (indépendamment des résultats du paragraphe précédent) que le lemme de Zorn pour la définition d'ensemble inductif (1,4), le plus faible en apparence, a pour conséquence le lemme de Zorn pour la définition d'ensemble inductif (2,3), le plus fort en apparence. Les quatre énoncés sont donc bien équivalents.

Équivalence avec l'axiome du choix et le théorème de Zermelo[modifier | modifier le code]

Les divers énoncés obtenus ci-dessus, équivalents entre eux, sont également équivalents à l'axiome du choix, modulo les autres axiomes de la théorie des ensembles, ceux de Zermelo par exemple. Il serait donc possible de considérer le lemme de Zorn comme un axiome[9], et l'« axiome du choix » comme un théorème qui serait sa conséquence. Le théorème de Zermelo ou principe du bon ordre, est également un équivalent de l'axiome du choix, qui a été utilisé pour démontrer les premières versions du lemme de Zorn (avant Zorn), et dont les démonstrations directes sont proches de celles de ce dernier.

Cependant, selon une boutade célèbre du mathématicien Jerry Bona (en), « L'axiome du choix est évidemment vrai, le principe du bon ordre est évidemment faux, et le lemme de Zorn personne n'en sait rien »[10]. Serge Lang ne trouve pas « psychologiquement très satisfaisant » de prendre pour axiome un énoncé tel que le lemme de Zorn[11]. Il s'avère que l'axiome du choix et le théorème de Zermelo sont des conséquences directes du lemme de Zorn, alors que la démonstration du lemme de Zorn ou du théorème de Zermelo par l'axiome du choix demande une construction un peu plus délicate. On peut énoncer d'ailleurs un théorème de point fixe qui ne dépend pas de l'axiome du choix, et qui, avec ce dernier, donne directement le lemme de Zorn[12].

Le lemme de Zorn a pour conséquence l'axiome du choix et le théorème de Zermelo[modifier | modifier le code]

  • Un énoncé possible de l'axiome du choix est l'existence, pour tout ensemble X d'ensembles non vides, d'une fonction de choix sur X, c'est-à-dire une fonction définie sur X telle que pour tout x de X, f(x) ∈ x. Soit E dont les éléments sont des graphes de fonctions de choix sur une partie de X, c'est-à-dire les ensembles de couples (x, u) tels que xX et ux. Cet ensemble, muni de l'inclusion, est inductif : l'ensemble E est non vide, car l'ensemble vide lui appartient, et la réunion d'une chaîne d'éléments de E est un élément de E (il reste un graphe fonctionnel, du fait que c'est une chaîne). Un élément maximal m de E est nécessairement le graphe d'une fonction définie sur tout X : si elle n'était pas définie en y élément de X donc non vide, on aurait vy, et m ∪ {(y,v)} contredirait la maximalité de m.
  • Pour le théorème de Zermelo, il faut montrer l'existence d'un bon ordre sur un ensemble X quelconque. On peut ordonner l'ensemble E des graphes de relation de bon ordre sur une partie de X par segment initial. L'ensemble E ainsi ordonné est inductif. Un élément maximal est forcément un bon ordre sur tout X, car il est toujours possible de prolonger un bon ordre sur Y en ajoutant un élément « au bout ».
Article détaillé : théorème de Zermelo.

Finalement, l'axiome du choix étant également une conséquence immédiate du théorème de Zermelo, il suffit de déduire le lemme de Zorn de l'axiome du choix, pour obtenir toutes les équivalences annoncées.

Démonstrations du lemme de Zorn[modifier | modifier le code]

On trouve plusieurs démonstrations du lemme de Zorn, qui reposent en gros sur le principe suivant. On construit une chaîne à partir d'un élément quelconque, soit a. Si a = a0 n'est pas maximal il possède un majorant strict a1, et ainsi de suite. Le tout est d'arriver à itérer suffisamment le procédé, jusqu'à atteindre un élément maximal. Comme il faudra l'itérer en général une infinité de fois, l'axiome du choix est nécessaire pour choisir un majorant strict. En général une simple définition par récurrence sur les entiers ne suffit pas : il n'y a aucune raison que aω, majorant strict de la chaîne des an pour n entier, soit maximal. Pour ce cas particulier, un axiome du choix faible, l'axiome du choix dépendant, suffirait. La façon la plus directe de construire cette suite est d'utiliser une définition par récurrence transfinie sur les ordinaux. Cependant, l'intérêt du lemme de Zorn est justement de pouvoir se passer des ordinaux, ce qui est possible également pour sa démonstration, et se fait en construisant directement la suite que l'on obtiendrait par récurrence transfinie, soit par réunion d'« approximations » de celle-ci, soit comme intersection des relations ayant la propriété adéquate.

Démonstration par récurrence ordinale[modifier | modifier le code]

Soit (E, ≤) un ensemble ordonné inductif, et f une fonction de choix sur les parties non vides de E. On suppose de plus, pour aboutir à une contradiction, que (E, ≤) ne possède pas d'élément maximal. On en déduit que toute chaîne possède non seulement au moins un majorant, mais au moins un majorant strict. Soit S la fonction définie sur les chaînes de E, qui à la chaîne C associe l'ensemble S(C) des majorants stricts de C.

Un ensemble inductif est forcément non vide (majorant de la chaîne vide), soit aE. On définit une fonctionnelle h par induction sur les ordinaux.

  • h(0) = a (un élément de E),
  • pour un ordinal successeur α+1, h(α +1) = f(S({h(α)})) (on « choisit » un majorant strict de h(α)),
  • pour un ordinal limite λ, h(λ) = f(S({h(α)| α < λ})) (on remarque que {h(α)| α < λ} est une chaîne de E, et on « choisit » un majorant strict de celle-ci).

(formellement, pour que ce soit bien une définition par récurrence, on peut prolonger S à toutes les parties de E, en associant n'importe quel sous-ensemble de E, par exemple {a}, à toutes les parties non totalement ordonnées par inclusion, par une récurrence sur les ordinaux immédiate {h(α)| α < β} est une chaîne de E pour tout ordinal β, et la définition est donc bien celle indiquée).

On a ainsi construit une fonctionnelle strictement croissante de la classe des ordinaux dans l'ensemble ordonné (E, ≤), c'est-à-dire que l'on met en correspondance bijective la classe propre des ordinaux et un sous-ensemble de E : ceci contredit le schéma d'axiomes de remplacement[13].

Dans la démonstration précédente la fonctionnelle h est construite comme une classe fonctionnelle. Il est possible de développer la même démonstration purement en termes d'ensemble. Il suffit de définir h, qui devient une fonction au sens usuel, par récurrence sur l'ordinal de Hartogs de E, qui est un ordinal qui ne s'injecte pas dans E. Ceci donne justement la contradiction. De plus, cette démonstration peut même alors se développer dans la théorie de Zermelo (sans remplacement). En effet la construction de Hartogs ne nécessite pas vraiment la théorie des ordinaux de von Neumann (qui elle utilise le remplacement), on obtient un ensemble bien ordonné qui ne s'injecte pas dans X, et le théorème de définition par récurrence sur un ordinal utile se démontre en fait pour n'importe quel bon ordre, et sans remplacement[14].

On remarque que les chaînes construites par récurrence transfinies sont bien ordonnées : cette démonstration fonctionne donc en supposant l'existence d'un majorant seulement pour les chaînes bien ordonnées (variante (2,3)). Comme par ailleurs la démonstration de l'axiome du choix n'utilise en fait que le lemme de Zorn pour l'inclusion (cas particulier de la variante (1,4)), on a ainsi une autre démonstration de l'équivalence des variantes du lemme de Zorn.

On a distingué trois cas pour la récurrence ordinale, ce qui n'était pas nécessaire ; si on pose g = f o S, la suite ordinale h vérifie pour tout ordinal α (cas où a = f(S(∅))=f(E)) :

h(α) = g({h(β)| β < α})

dont les éléments forment une chaîne bien ordonnée maximale, au sens où on ne peut plus la prolonger, de l'ensemble ordonné (E, ≤) (on l'a construite dans le cadre d'un raisonnement par l'absurde, sinon la suite s'interrompt à un certain ordinal équipotent à E).

On donne dans le paragraphe suivant une démonstration qui construit directement cette chaîne bien ordonnée et évite la définition par récurrence.

Démonstration par réunion de chaînes bien ordonnées[modifier | modifier le code]

On se propose de démontrer la version du théorème de Zorn pour les chaînes bien ordonnées (version (2,3)). Cette courte démonstration est une adaptation de celle donnée en 1904 par Ernst Zermelo pour son théorème du bon ordre[15]. Soit (E, ≤) un ensemble ordonné. Soit g une fonction partielle définie sur les chaînes bien ordonnées de (E, ≤) à valeur dans E, et qui est telle que, si g est définie pour la chaîne bien ordonnée C, g(C) est un majorant strict de C. Pour les besoins de la démonstration, on appelle g-chaîne une chaîne bien ordonnée C telle que, pour tout x de C :

x = g({yC | y < x}).

En particulier, l'ensemble vide est une g-chaîne, et si C est une g-chaîne telle que g(C) soit définie, alors C ∪ {g(C)} est encore une g-chaîne. On déduit le théorème de Zorn du lemme suivant :

Lemme. — Sous les conditions données ci-dessus, il existe une g-chaîne maximale, c'est-à-dire une g-chaîne C telle que g(C) n'est pas définie.

En effet, soit (E, ≤) un ensemble ordonné inductif au sens des chaînes bien ordonnées (1,3). Soit S(C) l'ensemble (éventuellement vide) des majorants stricts de la chaîne bien ordonnée C, et f une fonction de choix sur P(E) - {∅}. La fonction g est définie sur les chaînes bien ordonnées C qui possèdent au moins un majorant strict et vaut alors f(S(C)). Elle satisfait les hypothèses du lemme. Soit M une g-chaîne maximale, c'est-à-dire que g(M) n'est pas définie, ou de façon équivalente, M n'a pas de majorant strict. La chaîne bien ordonnée possède par ailleurs un majorant par hypothèse. Si celui-ci n'était pas un élément maximal, la chaîne M aurait des majorants stricts, et g(M) serait définie. Le lemme de Zorn est démontré.

Pour démontrer ce lemme, on utilise le lemme suivant[16].

Lemme. — Sous les conditions données ci-dessus, étant données deux g-chaînes, l'une est segment initial de l'autre.

À noter que les deux cas ne sont pas exclusifs (quand les chaînes sont égales). Soient donc deux g-chaînes C et D. Soit Σ l'ensemble des segments initiaux de C et de D. Clairement ∅ ∈ Σ. La réunion des éléments de Σ est encore un segment initial de C et de D, soit I.

  • Si I = C ou I = D, on a la conclusion du lemme.
  • Sinon I étant un segment initial différent de C et de D, qui sont des chaînes bien ordonnées et donc I a un plus petit majorant strict dans C, soit mC, et un plus petit majorant strict dans D, soit mD. Comme de plus C et D sont des g-chaînes, mC = mD = g(I). Mais alors I ∪ {g(I)} est un segment initial de C et de D ce qui contredit la définition de I. Ce cas est donc exclu et le second lemme est démontré.

Pour démontrer le premier lemme, on prend M égal à la réunion de toutes les g-chaînes de E. Du lemme que l'on vient de démontrer, on déduit que toute g-chaîne est un segment initial de M. L'ensemble M (éventuellemennt vide sans autre hypothèse sur g) est donc bien ordonné. De plus si xM, alors il existe une g-chaîne C telle que xC, et comme C est un segment initial de M, on a aussi x = g({yM | y < x}), ce pour tout x de M, donc M est une g-chaîne. Si g(M) était définie, M ∪ {g(M)} serait une g-chaîne ce qui est exclu, donc M est bien maximale.

Démonstration par intersection et propriété de clôture[modifier | modifier le code]

Il est possible également de construire la chaîne bien ordonnée maximale, comme intersection d'ensemble ayant de bonnes propriétés, à savoir stable par passage à la borne supérieure, et par une fonction « successeur » obtenue par axiome du choix. Cette démonstration ne nécessite pas de parler de bon ordre (même si la notion est sous-jacente), et convient directement pour le théorème de maximalité de Hausdorff[17]. Elle convient également pour la version « faible » du lemme de Zorn pour les ensembles strictement inductifs (version (1,4) ou (2,4)).

On suppose donc que (E, ≤) est un ensemble non vide strictement inductif, c'est-à-dire que toute chaîne de E possède une borne supérieure. Si (E, ≤)) ne possédait pas d'élément maximal, on pourrait, par l'axiome du choix, définir sur E une fonction f vérifiant x < f(x) pour tout x de E. Il suffit donc de montrer qu'une telle fonction ne peut exister, ce qui résulte immédiatement du théorème de point fixe suivant, qui est indépendant de l'axiome du choix.

Théorème de point fixe des ensembles ordonnés. — Soit f une fonction d'un ensemble non vide strictement inductif (E, ≤) dans lui-même expansive, c'est-à-dire vérifiant xf(x) pour tout x de E, alors f possède au moins un point fixe, c'est-à-dire un élément m de E vérifiant f(m) = m[18].

Ce théorème se démontre facilement par récurrence ordinale, de manière analogue à la démonstration du lemme de Zorn ci-dessus (mais sans utiliser l'axiome du choix)[19], mais le propos est ici de le démontrer directement[20]. La démonstration est esquissée ci-dessous.

On distingue e un élément de E (non vide). Pour les besoins de la preuve, on appelle ensemble admissible un sous-ensemble A de E contenant e, clos par application de f et par passage à la borne supérieure pour les chaînes de A, autrement dit :

  • eA
  • f(A) ⊂ A
  • Si CA, et C totalement ordonné, la borne supérieure de C (qui existe dans E car celui-ci est strictement inductif) appartient à A.

L'ensemble E est admissible. On peut donc définir l'intersection M de tous les ensembles admissibles, qui est non vide (eM) et on montre facilement que c'est encore un ensemble admissible. Si l'on montre que M est totalement ordonné, il possède une borne supérieure, m. comme M est admissible mM, et f(m) ∈ M. donc f(m) = m.

Pour montrer que M est totalement ordonné, il suffit de montrer sachant que xf('x) par hypothèse) le lemme suivant.

Lemme. — Pour tout x de M, pour tout y de M, yx ou f(x) ≤ y.

Pour ce lemme, on montre que M’ = {xM | ∀ yM (yx ou f(x) ≤ y)} est admissible, et l'on utilise le lemme suivant.

Lemme. — Pour tout x de M’, pour tout y de M, yx ou f(x) ≤ y.

Pour ce dernier lemme on montre que, si xM’, alors Mx = {yM | yx ou f(x) ≤ y} est admissible.

Propriété de caractère fini[modifier | modifier le code]

Il existe d'autres variantes du lemme de Zorn[21], on trouve par exemple dans Bourbaki[22] un énoncé utilisant les propriétés de caractère fini, qui sont les propriétés qui sont satisfaites pour l'ensemble vide et par un ensemble non vide donné si et seulement si elles sont satisfaites pour tout sous-ensemble fini de celui-ci. Une relation d'ordre étant donnée sur un ensemble E, la propriété d'être totalement ordonné par cette relation est de caractère fini. Un énoncé du lemme de Zorn (qui généralise l'énoncé usuel) est que sur tout ensemble E, et pour toute propriété de caractère fini, il existe un sous-ensemble de E maximal pour l'inclusion qui a cette propriété.

Histoire[modifier | modifier le code]

Des principes de maximalité plus ou moins proches du lemme de Zorn ont été découverts et redécouverts de nombreuses fois, sur une période qui va de 1907 à la fin des années 1930. Zorn lui-même ne revendiquait d'ailleurs pas la paternité du résultat[23]. En 1928 Salomon Bochner, dans un article sur les surfaces de Riemann, démontre un lemme dont l'énoncé est celui, usuel aujourd'hui (version (1,4)), du lemme de Zorn pour un ensemble ordonné[24]. Mais en 1922 Kuratowski donnait déjà un énoncé en termes d'inclusion, comme celui de l'article de Zorn, mais plus général puisque la condition porte sur des chaînes (pour l'inclusion) bien ordonnées, et pas seulement totalement ordonnées comme dans le cas de Zorn. Felix Hausdorff donne l'énoncé de Kuratowski dans la seconde édition de 1927 de son livre de théorie des ensembles Grundzüge der Mengenlehre (en)[25]. Robert Lee Moore donne un énoncé identique à celui de l'article de Zorn dans un livre paru en 1932, Foundations of point set theory, où il fait référence à Kuratowski[26].

Cependant, Zorn fut le premier à utiliser le lemme en algèbre pour les conséquences connues de l'axiome du choix, là où ses prédécesseurs utilisaient le théorème de Zermelo et la récurrence transfinie[27]. Zorn fut également le premier à annoncer l'équivalence d'un tel principe de maximalité avec l'axiome du choix[28]. Il présente son « principe du maximum »[29] alors qu'il est encore en Allemagne, à Hambourg en 1933, et intéresse Emil Artin et Claude Chevalley[30]. Il semble que c'est à partir de là que le lemme de Zorn circule sous ce nom, par l'intermédiaire d'Artin, de Chevalley et également de Solomon Lefschetz[31]. Les mathématiciens se rendent alors compte qu'il peut être largement utilisé, non seulement en algèbre mais aussi, par exemple, en topologie. On trouve, sous ces dénominations, le « théorème de Zorn » dans le fascicule de résultats de N. Bourbaki (groupe de mathématiciens dont Chevalley fait partie) paru en 1939, et le « lemme de Zorn » dans le livre de John Tukey Convergence and Uniformity in Topology paru en 1940[32].

Par ailleurs des principes de maximalité apparaissent avant Kuratowski. Hausdorff énonce un cas particulier de son théorème de maximalité en 1907, le généralise en 1909 (sous la forme : tout ensemble de parties contient une chaîne maximale pour l'inclusion, énoncé déjà équivalent au lemme de Zorn), et donne la forme donnée ci-dessus en 1914 dans la première édition de son livre Grundzüge der Mengenlehre[33]. On trouve également des cas particuliers du lemme de Zorn pour l'inclusion, avec des travaux en topologie autour de 1910 et 1911 de Zygmunt Janiszewski (en), Stefan Mazurkiewicz, Ludovic Zoretti et L. E. J. Brouwer[34].

Utilisations[modifier | modifier le code]

Le lemme de Zorn a un large éventail d'applications, qu'il n'est pas possible de lister exhaustivement. Il s'avère que beaucoup d'applications de versions « fortes » de l'axiome du choix utilisent des résultats de maximalité, qui se démontrent alors avec le lemme de Zorn. Le lemme n'est en général pas invoqué pour des résultats obtenus par des versions dénombrables de l'axiome du choix, comme l'axiome du choix dépendant, qui permet de construire par récurrence une suite (indexée par les entiers) avec un choix à chaque étape de récurrence. Ainsi l'existence d'un idéal maximal dans un anneau quelconque utilise le lemme de Zorn, mais pour un anneau noethérien on peut préférer donner une démonstration qui n'utilise que l'axiome du choix dépendant.

À noter que, restreint au cas particulier des anneaux de Boole, le théorème de l'idéal maximal est plus faible que l'axiome du choix (alors que dans le cas général il est équivalent à l'axiome du choix et donc au lemme de Zorn). Il se démontre cependant naturellement par le lemme de Zorn, et lui-même possède de nombreuses applications, à commencer par le théorème de l'ultrafiltre qui lui est directement équivalent par dualité.

Quelques utilisations en algèbre[modifier | modifier le code]

L'algèbre est historiquement le premier domaine des mathématiques, hors la théorie des ensembles, où l'axiome du choix a été largement utilisé, malgré les controverses suscitées lors de sa publication par Zermelo en 1904[35]. Beaucoup d'applications de l'axiome du choix en algèbre sont liées à des résultats de maximalité, ce que réalisa Zorn au milieu des années 1930. Les quelques applications à l'algèbre qui suivent sont déjà mentionnées par Zorn dans son article (à quelques variations près), et étaient démontrées avant Zorn par le théorème de Zermelo.

  • le théorème de la base incomplète, en particulier l'existence de bases pour tout espace vectoriel, se démontre facilement par le lemme de Zorn. Un base est un système de vecteurs libre maximal, et il suffit donc de remarquer que la réunion d'une famille croissante pour l'inclusion de systèmes libres est encore un système libre pour pouvoir appliquer le lemme de Zorn. Une conséquence de ce théorème est que dans tout corps commutatif K extension de k, il existe une base d'éléments de K au-dessus de k[36]. Georg Hamel avait démontré ce théorème en 1905 dans le cas particulier du corps des réels comme extension du corps des rationnels (et donc comme espace vectoriel sur les rationnels), mais sa démonstration (par le théorème de Zermelo) est générale.
  • Le théorème de Krull (1929) est un autre exemple d'application très directe à l'algèbre que donne Zorn de son « principe du maximum ». Il s'agit de montrer que dans un anneau unitaire, tout idéal à gauche est inclus dans un idéal maximal (maximal au sens de l'inclusion parmi les idéaux à gauche différents de l'anneau tout entier), et il suffit de montrer qu'une réunion croissante d'idéaux est un idéal.
  • L'existence, dans toute extension transcendante K d'un corps k, d'une base de transcendance (système maximal d'éléments transcendants algébriquement indépendants) de K au-dessus de k est une autre conséquence de l'axiome du choix (due à Ernst Steinitz en 1910) qui se démontre simplement par le lemme de Zorn.
  • L'existence pour tout corps d'une clôture algébrique, et son unicité à isomorphisme près, résultats également dus à Steinitz en 1910, se démontrent aussi tous deux par le lemme de Zorn, comme celui-ci le montre dans son article[37].
  • L'existence pour tout corps ordonné k de la clôture réelle de k, c'est-à-dire d'un corps réel clos maximal, extension de k et sous-corps de la clôture algébrique de k (résultat dû à Emil Artin et Otto Schreier en 1927[38]) est encore une conséquence directe du lemme de Zorn.

Topologie et analyse fonctionnelle[modifier | modifier le code]

Théorie des ensembles[modifier | modifier le code]

Quelques résultats de théorie des ensembles apparaissent naturellement comme des résultats de maximalité et se démontrent facilement par le lemme de Zorn. C'est le cas :

  • du théorème de Zermelo
  • du théorème de comparabilité cardinale (étant donné deux ensembles A et B il existe une injection de A dans B ou une injection de B dans A).

Tous deux sont équivalents à l'axiome du choix, et donc au lemme de Zorn.


Notes et références[modifier | modifier le code]

  1. Il ne peut se montrer sans l'axiome du choix puisqu'il lui est en fait équivalent (voir ordinal de Hartogs).
  2. Le terme d'ensemble inductif peut être utilisé également dans des sens tout à fait différents dans d'autres contextes.
  3. Ces variantes sont étudiées extensivement, avec quelques indications historiques quant à leur apparition, dans Rubin et Rubin 1985.
  4. où la terminologie peut être différente, voir l'article ordre partiel complet.
  5. Par exemple Lang 2002, p. 880 utilise strictly inductively ordered set.
  6. Par exemple Moschovakis 2006, p. 75
  7. équivalence simple à démontrer, voir la suite ; c'est cependant bien l'énoncé « plus général » de l'article que l'on a appelé très tôt lemme ou théorème de Zorn, voir Campbell 1978, p. 79.
  8. Campbell 1978, Rubin et Rubin 1985, …
  9. et c'était d'ailleurs l'intention de Zorn, selon Campbell 1978, p. 82.
  10. The Axiom of Choice is obviously true; the Well Ordering Principle is obviously false; and who can tell about Zorn's Lemma?, relatée par Eric Schechter, Handbook of Analysis and its Foundations, et sur cette page
  11. Zorn's lemma could be just taken as an axiom of set theory. However, it is not psychologically completely satisfactory as an axiom, because its statement is too involved, ..., Lang 2002, p. 881.
  12. Voir par exemple Lang 2002, p. 881 ou Moschovakis 2006, p. 102.
  13. On trouve une démonstration de ce genre par exemple dans Rubin et Rubin 1985 §4 p. 47, ou René Cori et Daniel Lascar, Logique mathématique II. Fonctions récursives, théorème de Gödel, théorie des ensembles, théorie des modèles [détail des éditions]
  14. Voir par exemple Moschovakis 2006, chap 8.
  15. Elle est due à (de) Hellmuth Kneser, « Eine direkte Ableitung des Zornschen Lemmas aus dem Auswahlaxiom », Math. Z. (de), vol. 53,‎ 1950, p. 110-113 (lire en ligne), voir Zorn's Lemma, Daniel R. Grayson, 2007.
  16. réminiscent d'une propriété analogue fondamentale des ordinaux
  17. Voir par exemple Walter Rudin, real and complex analysis, McGraw Hill, Appendix Hausdorff maximality theorem.
  18. Ce théorème est attribué à Bourbaki par Lang 2002. On le trouve dans le fascicule de résultats de 1939, d'après Campbell 1978, p. 82. Mais Moschovakis 2006, p. 102 l'attribue à Zermelo, dans son article de 1904, tout en précisant que celui-ci ne l'a pas énoncé dans toute sa généralité, et que le résultat a été attribué ensuite à d'autres mathématiciens. Il est parfois appelé « théorème de Bourbaki-Kneser ». En effet, Kneser 1950 démontre la version (2,3) comme variation de définition d'ensemble inductif, et fait lui aussi référence à Zermelo (1904). Le « lemme fondamental » énoncé (sans preuve) par Bourbaki adoptait (2,4).
  19. Moschovakis 2006, p. 102
  20. Voir Lang 2002, que l'on va suivre, essentiellement.
  21. Rubin et Rubin 1985
  22. Bourbaki 1970, voir aussi Rubin et Rubin 1985
  23. Ainsi qu'il le déclare à Campbell 1978, p. 84, I occasionnally accept the term “Zorn's lemma” […] but I always smile to supply the quote marks
  24. Campbell 1978, p. 81
  25. Campbell 1978, p. 78
  26. Campbell 1978, p. 78 et 81
  27. Moore 1982, p. 224
  28. équivalence mentionnée dans son article de 1935, et dont la démonstration est annoncée dans un article ultérieur qui ne paraîtra jamais. Zorn attribue à Emil Artin la remarque que son principe de maximalité et l'axiome du choix sont équivalents, d'après Campbell 1978, p. 83.
  29. (en)maximum principle dans l'article de 1935
  30. selon Zorn lui-même, Campbell 1978, p. 84.
  31. Campbell 1978, p. 83 et 85
  32. Campbell 1978, p. 82.
  33. Campbell 1978, p. 80.
  34. Campbell 1978, p. 79-80.
  35. Moore 1982, p. 227
  36. Zorn ne traite que ce cas particulier, mais la preuve est la même.
  37. Pour l'existence, Zorn l'utilise par le biais du théorème de Krull, dans un anneau de polynômes à plusieurs indéterminées sur le corps des fractions rationnelles sur k, mais on trouve aussi des démonstrations utilisant directement le lemme de Zorn, en utilisant que la réunion d'un chaîne croissante d'extensions de corps est un corps, par exemple Nathan Jacobson (1964), Lectures In Abstract Algebra, Vol 3, édition Springer 1975.
  38. Moore 1982, p. 228

Bibliographie[modifier | modifier le code]

  • N. Bourbaki, Éléments de mathématique, Théorie des ensembles, Hermann,‎ 1970 (1re éd. 1954), E.III.20, E.III.21 et fascicule de résultats E.R.29
    Une première édition du fascicule de résultats est parue en 1939 ; comme son nom l'indique ce fascicule de résultats ne contient pas de démonstrations
  • (en) Paul J. Campbell, « The Origin of “Zorn's Lemma” », Historia Mathematica, vol. 5, no 1,‎ février 1978, p. 77–89. Elsevier, accès en ligne restreint sur le site de la revue [1].
  • Casimir Kuratowski, Une méthode d'élimination des nombres transfinis des raisonnements mathématiques, Fundamenta Mathematicae, T 3, Warszawa 1922, accès en ligne sur le site de la revue [2].
  • (en) Gregory H. Moore, Zermelo's Axiom of Choice Its Origins, Development, and Influence, Springer, coll. « Studies in the History of Mathematics and Physical Sciences » (no 8),‎ 1982 (ISBN 978-0-387-90670-6)
    En particulier l'histoire du lemme de Zorn et des principes de maximalité est étudiée en section 4.4.
  • (en) Yiannis N. Moschovakis (de), Notes on set theory, Springer,‎ 2006, 2e éd. (1re éd. 1993) (ISBN 978-0-387-28723-2)
    Une démonstration du lemme de Zorn dans le cadre de la théorie de Zermelo, qui utilise la récurrence transfinie et le théorème de Hartogs
  • (en) Herman Rubin et Jean E. Rubin, Equivalents of the Axiom of Choice, II, Amsterdam, North-Holland,‎ 1985 (ISBN 9780444877086), « part I §4 : Maximal principles »
    Version enrichie du livre des mêmes auteurs de 1963 Equivalents of the Axiom of Choice
  • (en) Serge Lang, Algebra, Springer,‎ 2002, 3e éd. [détail des éditions] (ISBN 0-387-95385-X), appendix 2
  • (en) Max Zorn, A remark on method in transfinite algebra, Bull. Amer. Math. Soc. 41, 1935, p. 667-670, accès en ligne sur le site de la revue [3].