Optimisation (mathématiques)

L'optimisation est une branche des mathématiques cherchant à modéliser, à analyser et à résoudre analytiquement ou numériquement les problèmes qui consistent à minimiser ou maximiser une fonction sur un ensemble.

L’optimisation joue un rôle important en recherche opérationnelle (domaine à la frontière entre l'informatique, les mathématiques et l'économie), dans les mathématiques appliquées (fondamentales pour l'industrie et l'ingénierie), en analyse et en analyse numérique, en statistique pour l’estimation du maximum de vraisemblance d’une distribution, pour la recherche de stratégies dans le cadre de la théorie des jeux, ou encore en théorie du contrôle et de la commande.

Beaucoup de systèmes susceptibles d’être décrits par un modèle mathématique sont optimisés. La qualité des résultats et des prédictions dépend de la pertinence du modèle, du bon choix des variables que l'on cherche à optimiser, de l’efficacité de l’algorithme et des moyens pour le traitement numérique.

Histoire et dénomination

Antiquité

Les premiers problèmes d'optimisation auraient été formulés par Euclide, au III^e siècle avant notre ère, dans son ouvrage historique Éléments. Trois cents ans plus tard, Héron d'Alexandrie dans Catoptrica énonce le « principe du plus court chemin » dans le contexte de l'optique^[1] (voir figure).

Introduction de calcul différentiel

Au XVII^e siècle, l'apparition du calcul différentiel entraîne l'invention de techniques d'optimisation, ou du moins en fait ressentir la nécessité. Newton met au point une méthode itérative permettant de trouver les extrémums locaux d'une fonction en faisant intervenir la notion de dérivée, issue de ses travaux avec Leibniz^[2]. Cette nouvelle notion permet de grandes avancées dans l'optimisation de fonctions car le problème est ramené à la recherche des racines de la dérivée.

Durant le XVIII^e siècle, les travaux des mathématiciens Euler et Lagrange mènent au calcul des variations, une branche de l'analyse fonctionnelle regroupant plusieurs méthodes d'optimisation. Ce dernier invente une technique d'optimisation sous contraintes : les multiplicateurs de Lagrange.

Développements, applications et dénomination

Le XIX^e siècle est marqué par l'intérêt croissant des économistes pour les mathématiques. Ceux-ci mettent en place des modèles économiques qu'il convient d'optimiser, ce qui accélère le développement des mathématiques. Depuis cette période, l'optimisation est devenue un pilier des mathématiques appliquées et le foisonnement des techniques est tel qu'il ne saurait être résumé en quelques lignes.

On peut tout de même évoquer l'invention de plusieurs méthodes itératives utilisant le gradient de la fonction, ainsi que l'utilisation du terme « programmation mathématique », pour désigner des problèmes d'optimisation.

Historiquement, le premier terme introduit fut celui de « programmation linéaire », inventé par George Dantzig vers 1947^[3]. Le terme « programmation » dans ce contexte ne réfère pas à la programmation informatique (bien que les ordinateurs soient largement utilisés de nos jours pour résoudre des programmes mathématiques). Il vient de l’usage du mot « programme » par les forces armées américaines pour établir des horaires de formation et des choix logistiques, que Dantzig étudiait à l’époque. L’emploi du terme « programmation » avait également un intérêt pour débloquer des crédits en une époque où la planification devenait une priorité des gouvernements^{[réf. souhaitée]}.

Ainsi, à partir de 1939, le mathématicien Leonid Kantorovitch commence des travaux théoriques sur l'optimisation linéaire afin d'en tirer des applications concrètes à l'optimisation de la production économique planifiée de l'Union soviétique.

L'expression « programmation mathématique », qui requiert la longue explication ci-dessus, tend à être abandonnée. Par exemple, en juin 2010, la société savante internationale qui représente cette discipline a vu son nom précédent Mathematical Programming Society changé en Mathematical Optimization Society^[4] ; pour la même raison, on préfère aujourd'hui utiliser les locutions « optimisation linéaire/quadratique/… » au lieu de « programmation linéaire/quadratique/… »

Définitions

Minimisation

Plus formellement, l'optimisation est l’étude des problèmes qui s'expriment de la manière suivante.

Problème d'optimisation — Étant donné une fonction $f:A\rightarrow \mathbb {R}$ définie sur un ensemble $A$ à valeurs dans l'ensemble $\mathbb {R}$ des nombres réels (éventuellement dans la droite achevée ${\overline {\mathbb {R} }}:=\mathbb {R} \cup \{-\infty ,+\infty \}$ ), trouver un élément ${\bar {x}}$ de $A$ tel que $f({\bar {x}})\leqslant f(x)$ pour tous les $x$ dans $A$ .

On dit que l'on cherche à minimiser la fonction $f$ sur l'ensemble $A$ .

La fonction $f$ porte divers noms : fonction-coût ou simplement coût, fonction-objectif ou simplement objectif, critère, etc.

L'ensemble $A$ est appelé l'ensemble admissible et les points de $A$ sont appelés les points admissibles du problème (surtout lorsqu'il s'agit d'une partie d'un autre ensemble $B$ et que l'on ne veut pas que ${\bar {x}}$ appartienne au complémentaire $B\setminus A$ ). On dit que le problème est réalisable si $A$ est non vide (l'ensemble admissible étant souvent défini de manière implicite, son caractère non vide n'est pas nécessairement évident, ce qui justifie le besoin de ce concept de réalisabilité).

Le point ${\bar {x}}$ est appelé solution du problème d'optimisation (ou minimum ou minimiseur). On l'appelle aussi parfois une solution globale pour le distinguer des notions locales introduites ci-dessous. On dit qu'il s'agit d'un minimum strict si ${\bar {x}}\in A$ et $f({\bar {x}})<f(x)$ pour tout $x\in A\setminus \{{\bar {x}}\}$ .

On peut écrire ce problème de différentes manières :

$\inf _{x\in A}\,f(x)\quad {\mbox{ou}}\quad \inf {\{f(x)\mid x\in A\}}\quad {\mbox{ou}}\quad \inf {f(A)}\quad {\mbox{ou}}\quad \left\{{\begin{array}{l}\inf {f(x)}\\x\in A.\end{array}}\right.$

On note parfois $\operatorname {arg\,min} \,\{f(x)\mid x\in A\}$ l'ensemble des solutions du problème.

L'ensemble $f(A):=\{f(x)\mid x\in A\}$ est une partie de $\mathbb {R}$ (ou de ${\overline {\mathbb {R} }}$ si $f$ est valeurs dans ${\overline {\mathbb {R} }}$ ) et sa borne inférieure (ou infimum) $\inf {f(A)}$ est appelée la valeur optimale du problème. Cette valeur optimale est atteinte (c'est-à-dire qu'il existe un ${\bar {x}}\in A$ tel que $f({\bar {x}})=\inf \,f(A)$ ) si, et seulement si, le problème d'optimisation a une solution. Si $\inf {f(A)}>-\infty$ , on dit que le problème est borné.

On dit que le problème $\inf {\{f(x)\mid x\in A\}}$ est convexe si $A$ est une partie convexe d'un espace vectoriel et si $f$ est une fonction convexe sur $A$ .

Maximisation

Le problème décrit ci-dessus est un problème de minimisation. Comme on a

$\sup _{x\in A}{f(x)}=-\inf _{x\in A}\left(-f(x)\right),$

un problème de maximisation d'une fonction $f$ (à gauche ci-dessus) est équivalent au problème de minimisation de $-f$ (à droite ci-dessus). L'équivalence veut dire ici que les solutions sont les mêmes et que les valeurs optimales sont opposées. En particulier, une méthode pour analyser/résoudre un problème de minimisation pourra être utilisée pour analyser/résoudre un problème de maximisation.

Solution locale

Sous certaines conditions, le processus d'optimisation trouve le maximum global. Mais dans certains cas d'optimisation - comme les réseaux de neurones artificiels, le résultat peut être une solution locale^[5].

Un maximum local $a$ est un point de $A$ tel qu'il existe un voisinage $V$ où pour tout $x\in V$ , $f(x)\leqslant f(a)$ . Un minimum local est défini semblablement.

Il est en général facile de déterminer numériquement des maxima locaux avec des algorithmes de descentes - comme avec l'Algorithme du gradient. Pour vérifier que la solution trouvée est un maximum global, il est parfois possible de recourir à des connaissances additionnelles sur le problème. Selon la nature de $A$ ou de la fonction $f$ , divers théorèmes assurent des propriétés particulières de la solution qui simplifient sa recherche (voir principe du maximum ).

Optimisation combinatoire

Le plus souvent, $A$ est un sous-ensemble de l’espace euclidien $\mathbb {R} ^{n}$ . Lorsque $A$ est un sous-ensemble de $\mathbb {N} ^{n}$ ou de $\mathbb {N} ^{p}\times \mathbb {R} ^{q}$ , constitué des vecteurs satisfaisant un certain nombre de contraintes (de type égalité ou inégalité), on parle d'optimisation combinatoire.

Généralisation

Dans un cadre plus général, l'optimisation peut être définie pour des fonctions à valeurs dans un ensemble ordonné, plutôt que seulement l'ensemble des nombres réels.

Problème d'optimisation généralisé — Étant donné une fonction $f:A\rightarrow B$ définie sur un ensemble $A$ à valeurs dans un ensemble $B$ muni d'une relation d'ordre (≤), trouver un élément $x^{*}$ de $A$ tel que $f(x^{*})\leqslant f(x)$ pour tous les $x$ dans $A$ (pour un problème de minimisation) ou $f(x^{*})\geqslant f(x)$ pour tous les $x$ dans $A$ (pour un problème de maximisation).

Dans cette définition, $B$ peut être un ensemble de nombres réels, d'espaces vectoriels, de structures ordonnées ou de tout autre ensemble sur lequel une relation d'ordre est définie. La fonction $f$ représente la fonction objectif, qui mesure la performance ou la qualité des solutions. L'objectif de l'optimisation est de trouver la meilleure solution $x^{*}$ qui minimise ou maximise la fonction objectif, selon les critères déterminés par la relation d'ordre.

Quelques classes de problèmes

L’optimisation est découpée en sous-disciplines qui se chevauchent, suivant la forme de la fonction objectif et celle des contraintes : l'optimisation en dimension finie ou infinie (on parle ici de la dimension de l'espace vectoriel des variables à optimiser), l'optimisation continue ou combinatoire (les variables à optimiser sont discrètes dans ce dernier cas), l'optimisation différentiable ou non lisse (on qualifie ici la régularité des fonctions définissant le problème), l'optimisation linéaire (fonctions affines), quadratique (objectif quadratique et contraintes affines), semi-définie positive (la variable à optimiser est une matrice dont on requiert la semi-définie positivité), copositive (la variable à optimiser est une matrice dont on requiert la copositivité), conique (généralisation des disciplines précédentes, dans laquelle on minimise une fonction linéaire sur l'intersection d'un cône et d'un sous-espace affine), convexe (fonctions convexes), non linéaire, la commande optimale, l'optimisation stochastique (en) et robuste (présence d'aléas), l'optimisation multicritère (un compromis entre plusieurs objectifs contradictoires est recherché), l'optimisation algébrique (fonctions polynomiales), l'optimisation bi-niveaux, l'optimisation sous contraintes de complémentarité, l'optimisation disjonctive (l'ensemble admissible est une réunion d'ensembles), etc.

Cette abondance de disciplines provient du fait que pratiquement toute classe de problèmes modélisables peut conduire à un problème d'optimisation, pourvu que l'on y introduise des paramètres à optimiser. Par ailleurs, les conditions d'optimalité de ces problèmes d'optimisation apportent parfois des expressions mathématiques originales qui, par le mécanisme précédent, conduisent à leur tour à de nouveaux problèmes d'optimisation.

L'optimisation linéaire étudie le cas où la fonction objectif et les contraintes caractérisant l’ensemble $A$ sont linéaires. C’est une méthode très employée pour établir les programmes des raffineries pétrolières, mais aussi pour déterminer la composition la plus rentable d’un mélange salé, sous contraintes, à partir des prix de marché du moment.
L'optimisation linéaire en nombres entiers étudie les problèmes d'optimisation linéaire dans lesquels certaines ou toutes les variables sont contraintes de prendre des valeurs entières. Ces problèmes peuvent être résolus par différentes méthodes : séparation et évaluation, méthode des plans sécants.
L'optimisation quadratique étudie le cas où la fonction objectif est une forme quadratique (avec contraintes linéaires pour $A$ )
L'optimisation non linéaire étudie le cas général dans lequel l’objectif ou les contraintes (ou les deux) contiennent des parties non linéaires, éventuellement non-convexes.
L'optimisation stochastique (en) étudie le cas dans lequel certaines des contraintes dépendent de variables aléatoires. En optimisation robuste, les aléas sont supposés être situés dans des intervalles autour de positions nominales et on cherche à optimiser le système soumis à de tels aléas, dans le pire des cas.
La programmation dynamique utilise la propriété qu’une solution se compose nécessairement de sous-solutions optimales (attention : le contraire n'est pas vrai en général) pour décomposer le problème en évitant l’explosion combinatoire. Elle est utilisable lorsque la fonction objectif est une somme de fonctions monotones croissantes dont les arguments sont des inconnues distinctes. C’est la programmation dynamique qui permet par exemple :
- aux avionneurs de trouver les plans de décollage optimaux de leurs engins,
- aux ingénieurs de bassin de répartir la production minière entre leurs différents puits,
- aux producteurs d’électricité de planifier la marche des usines hydroélectriques,
- aux media planners de répartir efficacement un budget de publicité entre différents supports.

Méthodes numériques

Une technique de résolution d’un problème d’optimisation mathématique désigne ici

la transformation du problème d’origine en un problème équivalent,
une méthode théorique dont la description permet l’élaboration d’un algorithme numériquement applicable.

Le choix d’une technique appropriée dépend de

la nature de la fonction objectif $f$ , de sa régularité (continuité, dérivabilité), de propriétés spécifiques (parité, convexité), de la connaissance de voisinages de ses extrema,
des contraintes caractérisant l'ensemble $A$ des points admissibles.

Simplifications

Pour trouver une solution à l’optimisation, le problème d’origine est remplacé par un problème équivalent. Par exemple, il est possible de faire un changement de variables permettant de décomposer le problème en sous-problèmes ou la substitution d’inconnues permettant d’en réduire le nombre.

La technique du multiplicateur de Lagrange permet de s’affranchir de certaines contraintes ; cette méthode revient en effet à introduire des pénalités croissantes à mesure que le point se rapproche des contraintes. Un algorithme dû à Hugh Everett permet de mettre à jour de façon cohérente les valeurs des multiplicateurs à chaque itération pour garantir la convergence. Celui-ci a également généralisé l'interprétation de ces multiplicateurs pour les appliquer à des fonctions qui ne sont ni continues, ni dérivables. Le lambda exprime un coefficient de pénalité (notion de coût marginal d’une contrainte en économie).

Recherche des zéros du gradient

De nombreuses méthodes et algorithmes permettent de trouver un zéro de la dérivée de $f$ (certains sont spécifiques aux fonctions d’une variable) ou de son gradient $\mathbf {\nabla } f$ . Elles s’appliquent valablement dans des situations où les contraintes sur $A$ restent peu actives.

Toutes ces méthodes se développent dans le cadre d’un procédé itératif.

Ces approches peuvent souffrir de quelques défauts :

La fonction doit être assez régulière (au moins localement) pour être dérivable (ou encore deux fois dérivable pour accéder à la matrice hessienne ou une approximation de celle-ci).
Il n’est pas toujours possible d’exprimer explicitement le gradient de la fonction objectif.
Des conditions de départ doivent être fixées avant d’amorcer le processus itératif. Le choix initial peut considérablement influencer le résultat (divergence du procédé itératif). Les méthodes à convergence rapide sont en général plus sensibles de ce point de vue.
Dans certains cas, la vitesse de convergence peut se révéler désastreuse : les itérations successives cheminent laborieusement (stagnation) le long d’une vallée étroite (fonction de Rosenbrock).
Si la solution obtenue est bien un extremum (après vérification qu’il ne s’agisse pas d’un point selle), celui-ci peut s’avérer être local.

Cas particulier : Lorsque $f$ est polynomiale de degré 2 dans ses arguments (forme quadratique et linéaire) et sans contrainte, annuler le gradient revient à résoudre un système linéaire (cf Catégorie:Analyse numérique matricielle).

Méthodes analytiques directes

Dans cette catégorie, la plupart des algorithmes généraux s’appliquent aux situations où les contraintes sur $A$ restent peu actives. Ils se basent sur quelques idées dominantes :

Déplacements le long d’une ligne portée par un gradient.
Approximation de $f$ par une fonction plus simple (par exemple le développement de Taylor d’ordre 2), mise à jour au cours des itérations.

Divers perfectionnements ont été apportés afin d’éviter :

les stagnations (par exemple méthode du gradient conjugué en optimisation non linéaire (en))
le calcul explicite ou trop fréquent de la matrice hessienne (par exemple BFGS)

Les mêmes défauts que ceux mentionnés dans la catégorie précédente peuvent aussi se présenter ici.

La Catégorie:Algorithme d'optimisation présente une liste et donne accès à ces méthodes.

Techniques de l’optimisation combinatoire

Les techniques de l’optimisation combinatoire concernent des problèmes où une partie (au moins) des variables de l’ensemble $A$ prennent des valeurs discrètes. On les rencontre dans le cadre de

la théorie des graphes (chemin optimal dont le problème du voyageur de commerce)
la théorie des jeux (stratégies performantes)
la théorie du contrôle, de la régulation et de l’automatique (cf Catégorie:Automatique)
l’optimisation multidisciplinaire

Heuristiques et métaheuristiques

Pour résoudre des problèmes difficiles (par exemple ceux qui présentent de nombreux extrema locaux pauvres), des techniques ont été conçues pour déterminer des points qui ne sont pas rigoureusement optimaux, mais qui s’en approchent. Ces méthodes, appelées heuristiques et métaheuristiques, se basent généralement sur des phénomènes physiques, biologiques, socio-psychologiques ou font appel au hasard. Les domaines d’application sont vastes et s’étendent souvent bien au-delà des problèmes pour lesquels elles ont été initialement conçues.

le recuit simulé
la méthode de Nelder-Mead avec recuit simulé
les algorithmes de colonies de fourmis
les algorithmes génétiques
les algorithmes évolutionnistes
les méthodes d’optimisation par essaims particulaires

La Catégorie:Métaheuristique présente une liste et donne accès à ces méthodes.

Techniques de l’optimisation multiobjectif

Les problèmes d’optimisation multiobjectif sortent du cadre strict de la définition donnée plus haut : à un point admissible, la fonction objectif n’associe pas une valeur numérique, mais un point d’un ensemble qui sera le plus souvent associé à un vecteur. L'objectif est alors d'optimiser simultanément l'ensemble des composantes de ce vecteur. On peut aussi voir l’optimisation multiobjectif comme un ensemble de problèmes d'optimisation dépendant des mêmes paramètres, ayant des objectifs éventuellement contradictoires, et que l'on cherche à résoudre au mieux.

En général, l'espace dans lequel est exprimé le vecteur solution est muni d’un ordre partiel faisant intervenir des critères de dominance (par exemple en rapport avec la frontière de Pareto). La résolution consiste à trouver un point admissible dont l’objectif n’est dominé par aucun autre.

Domaines d’application

Ils sont extrêmement variés : optimisation d’un trajet, de la forme d’un objet, d’un prix de vente, d’une réaction chimique, du contrôle aérien, du rendement d’un appareil, du fonctionnement d'un moteur, de la gestion des lignes ferroviaires, du choix des investissements économiques, de la construction d’un navire, etc. L’optimisation de ces systèmes permet de trouver une configuration idéale, d’obtenir un gain d’effort, de temps, d’argent, d’énergie, de matière première, ou encore de satisfaction.

Les problèmes de la dynamique des solides indéformables (surtout la dynamique des corps rigides articulés) ont souvent besoin de techniques d'optimisation mathématique, puisqu'on peut voir la dynamique des corps rigides comme résolution d'une équation différentielle ordinaire sur une variété contrainte ; les contraintes sont diverses contraintes géométriques non linéaires telles que « ces deux points doivent toujours coïncider », ou « ce point doit toujours être sur cette courbe ». Aussi, le problème de calculer les forces de contact peut être achevé en résolvant un problème de complémentarité linéaire, qui peut aussi être vu comme un problème d'optimisation quadratique.

Plusieurs problèmes de conception peuvent aussi être exprimés sous forme de problèmes d’optimisation. Cette application est appelée l’optimisation de forme. Un sous-ensemble récent et croissant de ce domaine s’appelle l’Optimisation multidisciplinaire qui, bien qu’utile en plusieurs problèmes, a été particulièrement appliquée aux problèmes d'ingénierie et technologie spatiale.

Un autre domaine qui utilise les techniques d’optimisation est la recherche opérationnelle.

L’optimisation est un des outils centraux de la microéconomie qui est basée sur le principe de la rationalité et de l’optimisation des comportements, le profit pour les entreprises, et l’utilité pour les consommateurs.

En mécanique on distingue trois formes d'optimisation^[6] :

l'optimisation de taille ou optimisation paramétrique, qui consiste à optimiser des dimensions (longueur, épaisseur, diamètre…) de la structure mécanique ;
l'optimisation de forme, qui consiste à optimiser l'enveloppe d'une pièce sans changer la topologie, c'est-à-dire sans ajouter de trous dans la pièce ;
l'optimisation topologique, qui consiste à faire varier la répartition de matière au sein d'un volume de départ donné.

Très loin de constituer une liste exhaustive, ces quelques exemples attestent de la variété des formulations et préfigure la diversité des outils mathématiques susceptibles de résoudre ces problèmes.

Notes et références

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Optimization (mathematics) » (voir la liste des auteurs).

↑ Sebastian Xhonneux, « Perception de l’optimisation en mathématiques et en économie au fil des siècles et l’enseignement du théorème de Lagrange », sur APMEP, 27 octobre 2008 (consulté le 15 mars 2010).
↑ Voir l'article « Méthode de Newton ».
↑ (en) G. B. Dantzig, « Maximization of a linear function of variables subject to linear inequalities », dans Tj. C. Koopmans, Activity Analysis of Production and Allocation, New York, Wiley, 1951, p. 339–347.
↑ (en) « Mathematical Optimization Society (MOS) », sur mathopt.org.
↑ M. Gori et A. Tesi, « On the problem of local minima in backpropagation », IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 14, n^o 1,‎ 1992, p. 76–86 (ISSN 0162-8828, DOI 10.1109/34.107014, lire en ligne, consulté le 21 août 2019)
↑ Catherine Vayssade, « Optimisation mécanique, Optimisation topologique », 2004 (consulté le 24 décembre 2008).

Voir aussi

Articles connexes

Ouvrages généraux

(en) J. F. Bonnans, J. Ch. Gilbert, C. Lemaréchal et C. Sagastizábal, Numerical Optimization - Theoretical and Numerical Aspects [détail des éditions]
(en) J. F. Bonnans et A. Shapiro, Perturbation analysis of optimization problems, Springer, 2000 (ISBN 978-0-387-98705-7)
(en) Christodoulos A. Floudas et Panos M. Pardalos (éditeurs), Encyclopedia of Optimization, 2^e édition, 2009 (ISBN 978-0-387-74758-3)
Michel Minoux, Programmation mathématique - théorie et algorithmes, éditions Dunod, 1983 (ISBN 2040154876)

Liens externes

« La rivière » [PDF], sur ÉducMath : problème du plus court chemin entre deux maisons passant par la rivière
(en) Guide NEOS
(en) « Mathematical programming glossary »

Portail des mathématiques

[1] Sebastian Xhonneux, « Perception de l’optimisation en mathématiques et en économie au fil des siècles et l’enseignement du théorème de Lagrange », sur APMEP, 27 octobre 2008 (consulté le 15 mars 2010).

[2] Voir l'article « Méthode de Newton ».

[3] (en) G. B. Dantzig, « Maximization of a linear function of variables subject to linear inequalities », dans Tj. C. Koopmans, Activity Analysis of Production and Allocation, New York, Wiley, 1951, p. 339–347.

[4] (en) « Mathematical Optimization Society (MOS) », sur mathopt.org.

[5] M. Gori et A. Tesi, « On the problem of local minima in backpropagation », IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 14, n^o 1,‎ 1992, p. 76–86 (ISSN 0162-8828, DOI 10.1109/34.107014, lire en ligne, consulté le 21 août 2019)

[6] Catherine Vayssade, « Optimisation mécanique, Optimisation topologique », 2004 (consulté le 24 décembre 2008).

[1]

[2]

[3]

[4]

[5]

[6]