DALL-E

Un article de Wikipédia, l'encyclopédie libre.
DALL-E

Description de cette image, également commentée ci-après
Girafes à ailes de dragon générées par DALL-E
Informations
Créateur OpenAI
Développé par OpenAIVoir et modifier les données sur Wikidata
Fichier exécutable images générées à partir de commandes naturelles
Première version
Écrit en GPT-3[1]
Supporte les langages langage naturel
Type Intelligence artificielle
Site web www.openai.com/blog/dall-e/

DALL-E (ou DALL·E, à prononcer Dali, en référence à Salvador Dali) est un programme d'intelligence artificielle capable de créer des images à partir de descriptions textuelles. Son nom est un mot-valise évoquant à la fois le robot de Pixar WALL-E et le peintre Salvador Dalí[2],[3].

DALL-E utilise une version à 12 milliards de paramètres[3] du modèle de langage GPT-3[1] pour interpréter les entrées (commandes) en langage naturel (telles que par exemple : « un sac à main en cuir vert en forme de pentagone » ou « une vue isométrique d'un capybara triste »), et générer les images demandées[2]. Il peut créer des images d'objets réalistes (« un vitrail avec l'image d'une fraise bleue »), mais aussi des objets qui n'existent pas dans la réalité (ex. : « un cube avec la texture d'un porc-épic »)[4],[5],[6].

DALL-E a été cité comme le logiciel existant faisant le plus preuve de créativité[7].

Spécificité[modifier | modifier le code]

Depuis les années 2000, de nombreux réseaux de neurones ont pu générer des images réalistes[2]. La spécificité de DALL-E est de pouvoir les générer à partir d'invites en langage naturel, qu'il « comprend », et « il échoue rarement »[2].

Code source[modifier | modifier le code]

OpenAI n'a pas publié de code source pour l'un ou l'autre modèle, bien qu'une « démo contrôlée » de DALL-E soit disponible sur le site Web d'OpenAI, où la sortie d'une sélection limitée d'exemples d'invites peut être visualisée[3].

Des alternatives open source, formées sur de plus petites quantités de données, comme DALL-E Mini, ont été publiées par d'autres.

Selon la MIT Technology Review, l'un des principaux objectifs d'OpenAI était de « donner aux modèles de langage une meilleure compréhension des concepts quotidiens que les humains utilisent pour donner un sens aux choses »[8].

Histoire[modifier | modifier le code]

Image créée par DALL-E 2 à partir du texte A Shiba Inu dog wearing a beret and black turtleneck (un Shiba Inu portant un béret et un col roulé noir).

DALL-E a été révélé par OpenAI le [8].

En , OpenAI a annoncé DALL-E 2 (affirmant qu'il pouvait produire des images photoréalistes à partir de descriptions textuelles), ainsi qu'un éditeur permettant de simples modifications de la sortie. Lors de l'annonce, le logiciel était encore en phase de recherche, avec un accès limité à des utilisateurs bêta présélectionnés. Le modèle pouvait encore faire de graves erreurs, y compris des erreurs qu'aucun humain ne ferait[9].

DALL-E 2 a été décrit comme un modèle qui « peut créer des images et des œuvres d'art originales et réalistes à partir d'une description textuelle. Il peut combiner des concepts, des attributs et des styles »[10].

CLIP[modifier | modifier le code]

DALL-E a été développé et annoncé au public en collaboration avec CLIP (Contrastive Language-Image Pre-training)[8].

CLIP est un modèle à part entière dont le rôle est de « comprendre et hiérarchiser » sa production[2].

Les images générées par DALL-E sont organisées par CLIP, qui présente les images de la plus haute qualité pour une invite donnée[8].

CLIP est un système de reconnaissance d'images[11] qui a été « formé » à comprendre et classer ces images[2] à partir de plus de 400 millions de paires d'images et de texte[3] extraits d'Internet (plutôt que sur un ensemble de données organisé d'images étiquetées comme ImageNet)[8]. CLIP associe les images à des légendes entières[8].

CLIP a été formé pour prédire quelle légende (parmi une « sélection aléatoire » de 32 768 légendes possibles) était la plus appropriée pour une image, lui permettant ensuite d'identifier des objets dans des images en dehors de son ensemble de formation[8].

Architecture[modifier | modifier le code]

Un modèle baptisé Generative Pre-trained Transformer (GPT) a d'abord été développé par OpenAI, en 2018[12][réf. non conforme], en utilisant l'architecture Transformer.

La première itération, GPT, a été mise à l'échelle pour produire GPT-2 en 2019[13] ; et en 2020, il a été de nouveau mis à l'échelle pour produire GPT-3, avec 175 milliards de paramètres[3].

Le modèle de DALL-E est une implémentation multimodale de GPT-3[14][réf. non conforme] avec 12 milliards de paramètres[3] qui « échange du texte contre des pixels », entraînés sur des paires texte-image provenant d'Internet[8].

Il utilise l'apprentissage zéro coup pour générer une sortie à partir d'une description et d'un signal sans autre formation[15].

DALL-E génère plusieurs images en réponse aux invites.

Performance[modifier | modifier le code]

Exemple d'images générées par DALL.E au départ des consignes suivantes[16] :
* une bibliothèque médiévale au clair de lune ;
* une bibliothèque médiévale au clair de lune (même consigne) ;
* un codex sur une table dans une bibliothèque médiévale ;
* un moine copiste au travail éclairé par une bougie ;
* la silhouette d'un moine cistercien partiellement cachée derrière un rideau ;
* gros plan sur la manche d'un moine cistercien tenant une dague à la main ;
* clair-obscur d'un moine cistercien allongé sur le sol ;
* clair-obscur d'un poignard sur le sol ;
* silhouette d'un moine cistercien portant un codex dans un couloir sombre.

DALL-E est capable de générer des images dans une variété de styles, allant de l'imagerie photoréaliste[3] aux peintures et emoji.

Il peut également « manipuler et réorganiser » des objets dans ses images[3].

Une capacité notée par ses créateurs était le placement correct des éléments de conception dans de nouvelles compositions sans instruction explicite : « Par exemple, lorsqu'on lui demande de dessiner un radis daikon qui se mouche, sirote un café au lait ou monte sur un monocycle, DALL·E dessine souvent le mouchoir, mains et pieds à des endroits plausibles[17] ».

Alors que DALL-E présentait une grande variété de compétences et de capacités, lors de la sortie de sa démo publique, la plupart des reportages se sont concentrés sur un petit sous-ensemble d'images de sortie « surréalistes »[8] ou « excentriques »[18].

Plus précisément, la sortie de DALL-E pour « une illustration d'un bébé radis daikon dans un tutu promenant un chien » a été mentionnée dans des articles de Input[19], NBC[20], Nature[21], et d'autres publications[3],[22],[23]. Sa production pour « un fauteuil en forme d'avocat » a aussi été notée[8],[24].

Des capacités émergentes apparaissent parfois chez les logiciels basés sur l'apprentissage automatique :

  • DALL-E a appris à « remplir les blancs » et à déduire de nombreux détails appropriés sans invites spécifiques (ExtremeTech a noté qu'une invite à dessiner un pingouin portant un pull de Noël a donné des images de pingouins ne portant pas seulement des pulls, mais aussi des chapeaux de Père Noël, thématiquement liés[25] ; et Engadget a noté qu'à l'invite « une peinture de renard assis dans un champ en hiver », Dall a produit une image où les ombres étaient placées de manière appropriée[15].
  • DALL-E semble aussi avoir involontairement acquis des capacités de raisonnement visuel suffisantes pour résoudre les matrices de Raven (tests visuels souvent administrés aux humains pour mesurer l'intelligence)[26].
  • DALL-E a une compréhension des tendances visuelles et de conception ; selon ExtremeTech, « vous pouvez demander à DALL-E de produire une image de téléphone ou d'un aspirateur correspondant à un moment particulier du temps de temps spécifiée, et il comprendra comment ces objets ont changé[25] ». Engadget a également noté sa capacité inhabituelle à « comprendre comment les téléphones et autres objets changent avec le temps[15] ». DALL-E a été décrit, avec d'autres « IA étroites » comme AlphaGo, AlphaFold et GPT-3 comme « [générant] de l'intérêt pour savoir si et comment l'intelligence artificielle générale peut être atteinte[27][réf. non conforme] ».

DALL-E a été décrit comme « remarquablement robuste à de tels changements » et fiable dans la production d'images pour une grande variété de descriptions arbitraires[2].

Sam Shead, journaliste pour CNBC, a qualifié ses images de « décalées » et a cité Neil Lawrence, professeur d'apprentissage automatique à l'université de Cambridge, qui l'a décrit comme une « démonstration inspirante de la capacité de ces modèles à stocker des informations sur notre monde et généraliser d'une manière que les humains trouvent très naturelle ».

Shead a aussi cité Mark Riedl (professeur agrégé à la Georgia Tech School of Interactive Computing). Selon ce dernier, DALL-E a montré qu'il était capable de « mélanger de manière cohérente des concepts », ce qui est un élément clé de la créativité humaine. La démo de DALL-E a été remarquable pour produire des illustrations beaucoup plus cohérentes que les autres systèmes Text2Image vus ces dernières années[18]. Riedl, à la BBC s'est aussi dit « impressionné par ce que le système pouvait faire »[24].

Aspects éthiques et moraux, et impacts sociétaux[modifier | modifier le code]

Les modèles de langage comme GPT-3 ont un potentiel bénéfique pour la société (ex. : auto-complétion de code et d'écriture, assistance grammaticale, génération de narration de jeu, amélioration des réponses des moteurs de recherche et de la réponse à des questions…), mais les chercheurs qui les étudient sont également conscient qu'« ils ont aussi des applications potentiellement dangereuses », et que leur demande en capacité de calcul intensif les rend, au moins au stade de l'apprentissage, très consommateur d'énergie (et donc contributeur au réchauffement climatique)[28].

Ainsi, les modèles de langage améliorés (comme GPT-3) améliorent grandement la qualité des texte et des images artificiellement générés, et disposent d'une adaptabilité bien plus grande que les modèles antérieurs, mais avec comme conséquence que distinguer le texte et les images synthétiques du texte écrit par l'homme et d'images réelles devient de plus en plus difficile, voire impossible[28].

Ces modèles linguistiques « intelligents » ont un fort potentiel d'applications bénéfiques, mais aussi de conséquences ou d'applications néfastes[28]. C'est pourquoi avant d'éventuellement largement diffuser ce type d'outil, des chercheurs étudient leur efficacité énergétique, leurs méfaits potentiels (pour pouvoir les atténuer). En particulier ils étudient les problèmes de partialité, d'équité et de représentation, problèmes qui peuvent apparaitre spontanément en raison de « contamination des données » notamment ; GPT-3 peut en effet intégrer :

  • des préjugés sexistes, raciaux et religieux (d'autres catégories de préjugés existent très probablement dans ces logiciels, encore à étudier) ;
  • des facteurs d'inéquité ;
  • d'autres types de discriminations liées aux biais et contenus des corpus et bases de données qu'il utilise pour son auto-apprentissage (une étude publiée en 2020 « indique que les modèles formés à Internet ont des biais à l'échelle d'Internet ; les modèles ont tendance à refléter les stéréotypes présents dans leurs données de formation »[28]).

Le scandale Facebook-Cambridge Analytica[29],[30]/AggregateIQ et l'utilisation du logiciel Ripon[31] qui semblent avoir permis l'élection de Donald Trump[30],[32], puis le Brexit[33], et la manipulation d'une vingtaine d'élections dans le monde ont montré la réalité d'un autre risque : celui d'utilisations abusives délibérées, par exemple pour la désinformation (de la publicité à la propagande politique…), le phishing, l'abus des procédures légales et gouvernementales, la rédaction frauduleuse d'articles, d'ouvrages ou d'essais universitaires, ou d'œuvres d'art ; l'ingénierie sociale[28].

Au début des années 2020, OpenAI et divers chercheurs cherchent donc aussi à « analyser les impacts sociétaux » que peut générer DALL-E et/ou le programme GPT-3, par exemple s'il sont détournés pour produire de faux textes et de fausses images ou vidéo pouvant donner l'impression d'une vérité ou au moins d'une parfaite plausibilité et cohérence[34] et « le potentiel de biais » de ce logiciel avant de le publier pour un usage général[18].

Ces intelligences artificielles sont particulièrement susceptibles d'être mal utilisées et/ou sciemment détournées pour des usages illégaux, non-éthiques et sociétalement dangereux, on cherche à faire en sorte qu'ils soient en mesure de se défendre de tels usages[28][réf. non conforme].

Consommation d'énergie et contribution à l'effet de serre[modifier | modifier le code]

Dans un monde aux ressources finies, et dans le contexte du réchauffement climatique, le rendement énergétique et la soutenabilité des intelligences artificielles deviennent un enjeu majeur[28].

Le modèle de langage amélioré sous-jacent, ainsi que les outils de génération d'images doivent en effet se pré-former à grande échelle[Quoi ?]. Ceci se fait généralement à partir du Web et nécessite une énorme puissance de calcul, et est donc très énergivore : à titre d'exemple, pour former le GPT-3 à 175 milliards de paramètres utilisé par DALL-E, il a fallu « plusieurs milliers de pétaflops-jours de calcul pour son temps de pré-formation (contre quelques dizaines de pétaflops-jours pour un modèle GPT-2 à 1,5 milliard de paramètres) »[28].

Des modèles comme GPT-3 sont cependant ensuite étonnamment efficaces une fois formés : même avec le GPT-3 à 175 milliards de paramètres complet, la génération de 100 pages de contenu à partir d'un modèle formé peut alors ne consommer qu'environ 0,4 kWh, ou soit quelques centimes en coût énergétique[28]. L'impact ou la dette carbone du système sera justifiée par l'usage ou des messages qu'on en fera (fonctions gadgets, jeux/cinéma, publicité, ou usages pédagogiques, scientifiques…).

Des progrès algorithmiques associés à des techniques de « distillation de modèles » et des usages collaboratifs permettent d'ensuite diminuer le coût de ces modèles dans des contextes appropriés[28], mais toujours avec le risque d'« effet rebond » bien connu des économistes.

Prospective[modifier | modifier le code]

DALL-E annonce « l'aube d'un nouveau paradigme d'IA connu sous le nom d'IA multimodale », dans lequel les systèmes seraient capables de combiner des données et de traduire des données entre plusieurs types d'informations.

Notes et références[modifier | modifier le code]

  1. a et b (en) Tom B. Brown, Benjamin Mann, Nick Ryder et Melanie Subbiah, « Language Models are Few-Shot Learners », arXiv:2005.14165 [cs],‎ (lire en ligne, consulté le ).
  2. a b c d e f et g (en) Devin Coldewey, « OpenAI’s DALL-E creates plausible images of literally anything you ask it to », sur TechCrunch, (consulté le ).
  3. a b c d e f g h et i (en-US) « OpenAI debuts DALL-E for generating images from text », sur VentureBeat, (consulté le ).
  4. (en-US) « OpenAI’s text-to-image engine, DALL-E, is a powerful visual idea generator », sur VentureBeat, (consulté le ).
  5. (en) Mihai Andrei, « This AI module can create stunning images out of any text input », sur zmescience.com, (consulté le ).
  6. (en) Bryan Walsh, « A new AI model draws images from text », Axios, (consulté le ).
  7. (en) Rob Toews, « AI And Creativity: Why OpenAI's Latest Model Matters » [archive du ], Forbes, (consulté le ).
  8. a b c d e f g h i et j (en) Will Douglas Heaven, « This avocado armchair could be the future of AI », MIT Technology Review, (consulté le ).
  9. (en) Jeremy Kahn, « Move over Photoshop: OpenAI has just revolutionized digital image making », Fortune, (consulté le ).
  10. (en) « DALL·E 2 », OpenAI (consulté le ).
  11. (en) « For Its Latest Trick, OpenAI's GPT-3 Generates Images From Text Captions » [archive du ], Synced, (consulté le ).
  12. (en) Alec Radford, Karthik Narasimhan, Tim Salimans et Ilya Sutskever, « Improving Language Understanding by Generative Pre-Training » [(date=26 January 2021 ; archivage) archive] [PDF], OpenAI, (consulté le ), p. 12.
  13. (en) Alec Radford, Jeffrey Wu, Rewon Child et David Luan, « Language models are unsupervised multitask learners », OpenAI, vol. 1, no 8,‎ (lire en ligne [archive du ] [PDF], consulté le ).
  14. (en) Auteur inconnu « Understanding the Capabilities, Limitations, and Societal Impact of Large Language Models », {{{year}}}..
  15. a b et c (en) Steve Dent, « OpenAI's DALL-E app generates images from just a description » [archive du ], Engadget, (consulté le ).
  16. Les consignes ont été données en anglais :
    a moonlit medieval library
    a moonlit medieval library (2)
    a codex on a table in a medieval library
    a copyist monk at work lit by a candle
    a figure of a Cistercian monk partially hidden behind a curtain
    close-up on the sleeve of a Cistercian monk holding a dagger in his hand
    chiaroscuro of a Cistercian monk lying on the ground
    chiaroscuro of a dagger on the floor
    figure of a Cistercian monk carrying a codex in a dark corridor.
  17. (en) Thom Dunn, « This AI neural network transforms text captions into art, like a jellyfish Pikachu » [archive du ], Boing Boing, (consulté le ).
  18. a b et c (en) Sam Shead, « Why everyone is talking about an image generator released by an Elon Musk-backed A.I. lab », sur CNBC, (consulté le ).
  19. (en) Mehreen Kasana, « This AI turns text into surreal, suggestion-driven art » [archive du ], Input, (consulté le ).
  20. (en) Melanie Ehrenkranz, « Here's DALL-E: An algorithm learned to draw anything you tell it » [archive du ], NBC News, (consulté le ).
  21. (en) Emma Stove, « Tardigrade circus and a tree of life — January's best science images » [archive du ], Nature, (consulté le ).
  22. (en) Will Knight, « This AI Could Go From 'Art' to Steering a Self-Driving Car » [archive du ], Wired, (consulté le ).
  23. (en) Rachel Metz, « A radish in a tutu walking a dog? This AI can draw it really well », CNN, (consulté le ).
  24. a et b (en) Jane Wakefield, « AI draws dog-walking baby radish in a tutu » [archive du ], British Broadcasting Corporation, (consulté le ).
  25. a et b (en) Ryan Whitwam, « OpenAI's 'DALL-E' Generates Images From Text Descriptions » [archive du ], ExtremeTech, (consulté le ).
  26. (en) Dale Markowitz, « Here's how OpenAI's magical DALL-E image generator works » [archive du ], TheNextWeb, (consulté le ).
  27. (en) Stefano Nichele, « Tim Taylor and Alan Dorin: Rise of the self-replicators—early visions of machines, AI and robots that can reproduce and evolve », Genetic Programming and Evolvable Machines, vol. 22,‎ , p. 141–145 (DOI 10.1007/s10710-021-09398-5).
  28. a b c d e f g h i et j (en) Tom B. Brown, Benjamin Mann, Nick Ryder et Melanie Subbiah (…), « Language Models are Few-Shot Learners », arXiv:2005.14165 [cs],‎ (lire en ligne, consulté le ).
  29. (en-GB) « Facebook scandal 'hit 87 million users' », sur BBC News, (consulté le ).
  30. a et b (en) Cadwalladr C, « The great British Brexit robbery: how our democracy was hijacked » [PDF], The Guardian, .
  31. (en) « The Aggregate IQ Files, Part One: How a Political Engineering Firm Exposed Their Code Base », sur upguard.com, (consulté le ).
  32. (en) Colin J Bennett, « Trends in Voter Surveillance in Western Societies: Privacy Intrusions and Democratic Implications », Surveillance & Society (en), vol. 13, nos 3/4,‎ , p. 370–384 (ISSN 1477-7487, DOI 10.24908/ss.v13i3/4.5373, lire en ligne, consulté le ).
  33. (en-GB) Patrick Foster et Martin Evans, « Exclusive: How a tiny Canadian IT company helped swing the Brexit vote for Leave », sur The Telegraph, (ISSN 0307-1235, consulté le ).
  34. (en) Thomas Macaulay, « Say hello to OpenAI's DALL-E, a bot that creates weird images from text », sur TNW, (consulté le ).

Voir aussi[modifier | modifier le code]

Articles connexes[modifier | modifier le code]

Liens externes[modifier | modifier le code]