Fichier:Demonstration of DreamBooth AI model fine-tuning for Stable Diffusion using Jimmy Wales training data from Wikimedia Commons.png

Le contenu de la page n’est pas pris en charge dans d’autres langues.
Une page de Wikipédia, l'encyclopédie libre.

Fichier d’origine(2 304 × 2 048 pixels, taille du fichier : 5,14 Mio, type MIME : image/png)

Ce fichier et sa description proviennent de Wikimedia Commons.

Description

Description

Demonstration of the use of DreamBooth to fine-tune a text-to-image diffusion model (in this particular case, Stable Diffusion) so that it can algorithmically generate highly specialised and customised image outputs. This demonstration features six output images of Jimmy Wales, founder of Wikipedia, performing bench press exercises at a fitness gym.

Procedure/Methodology

The model checkpoint was fine-tuned in DreamBooth using 38 different free-licence images of Jimmy Wales obtained from Category:Jimmy Wales on Wikimedia Commons, using Stable Diffusion V1-5 as the base model checkpoint to be trained. Specifically, the following images were used as training data:

Using d8ahazard's DreamBooth_V2 fork of Stable Diffusion web UI created by AUTOMATIC1111, a new model based on Stable Diffusion V1-5 (sd-v1-5-pruned-emaonly.ckpt) was created with "pndm" selected as the scheduler, and the following options were chosen:

  • Initialisation text: photo of jimmywalesstare man
  • Classification text: photo of a man
  • Learning rate: 0.000005
  • Total number of classification images to use: 50
  • Training steps: 4000
  • Batch size: 1
  • Class batch size: 1
  • Seed: -1
  • Resolution: 512
  • Save a checkpoint every N steps: 500

The model was then subsequently trained using the 38 images listed earlier. The DreamBooth training process, along with the image generation process outlined later below, was performed using an NVIDIA RTX 4090; since Ada Lovelace chipsets (using compute capability 8.9, which requires CUDA 11.8) are not fully supported by the pyTorch dependency libraries currently used by Stable Diffusion, I've used a custom build of xformers, along with pyTorch cu116 and cuDNN v8.6, as a temporary workaround.

After completion of the training of the new model, a batch of 768x1024 images were generated with txt2img in Stable Diffusion, using the model checkpoint taken at 1000 training steps, and with the following prompts:

Prompt: photo of jimmywalesstare man at the (gym) performing (bench press), muscular body, athletic body, Nikon D7500, 4K, sharp focus, photorealistic high-quality, volumetric lighting, close-up, detailed face

Negative prompt: (((multiple people))), (((out of frame))), (((no face))), ((deformed hands)), extra limbs, ((ugly)), (((deformed))), ((bad anatomy)), ((mangled)), (((censored))), (blurry), (((distorted face))), mutation, amputee, hugging, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, broken body, mutated, extra hands, extra feet, extra arms, extra legs, multiple views, lowres

Settings: Steps: 100, Sampler: DPM2 a, CFG scale: 12, Size: 768x1024, Highres. fix, Upscale latent space off, Denoising strength: 0.7

The final images were taken from this generated batch.
Date
Source Travail personnel
Auteur Benlisquare
Autorisation
(Réutilisation de ce fichier)
Output images

As the creator of the output images, I release this image under the licence displayed within the template below.

Stable Diffusion AI model

The Stable Diffusion AI model is released under the CreativeML OpenRAIL-M License, which "does not impose any restrictions on reuse, distribution, commercialization, adaptation" as long as the model is not being intentionally used to cause harm to individuals, for instance, to deliberately mislead or deceive, and the authors of the AI models claim no rights over any image outputs generated, as stipulated by the license.

DreamBooth

The Stable Diffusion implementation of DreamBooth by XavierXiao, of which d8ahazard's DreamBooth_V2 fork of the Stable Diffusion web UI is based on, is licenced under the MIT License.

Training data used to create the customised model checkpoint
All 38 images used to train the model via DreamBooth were free-licence images obtained from Wikimedia Commons. For detailed licencing information, refer to the file descriptions of each individual image.

Conditions d’utilisation

Moi, en tant que détenteur des droits d’auteur sur cette œuvre, je la publie sous les licences suivantes :
w:fr:Creative Commons
paternité partage à l’identique
Vous êtes libre :
  • de partager – de copier, distribuer et transmettre cette œuvre
  • d’adapter – de modifier cette œuvre
Sous les conditions suivantes :
  • paternité – Vous devez donner les informations appropriées concernant l'auteur, fournir un lien vers la licence et indiquer si des modifications ont été faites. Vous pouvez faire cela par tout moyen raisonnable, mais en aucune façon suggérant que l’auteur vous soutient ou approuve l’utilisation que vous en faites.
  • partage à l’identique – Si vous modifiez, transformez, ou vous basez sur cette œuvre, vous devez distribuer votre contribution sous la même licence ou une licence compatible avec celle de l’original.
GNU head Vous avez la permission de copier, distribuer et modifier ce document selon les termes de la GNU Free Documentation License version 1.2 ou toute version ultérieure publiée par la Free Software Foundation, sans sections inaltérables, sans texte de première page de couverture et sans texte de dernière page de couverture. Un exemplaire de la licence est inclus dans la section intitulée GNU Free Documentation License.
Vous pouvez choisir l’une de ces licences.

Légendes

Ajoutez en une ligne la description de ce que représente ce fichier

Éléments décrits dans ce fichier

dépeint

image/png

Historique du fichier

Cliquer sur une date et heure pour voir le fichier tel qu'il était à ce moment-là.

Date et heureVignetteDimensionsUtilisateurCommentaire
actuel8 août 2023 à 12:35Vignette pour la version du 8 août 2023 à 12:352 304 × 2 048 (5,14 Mio)Obscure2020Optimized with OxiPNG and ZopfliPNG.
4 novembre 2022 à 20:47Vignette pour la version du 4 novembre 2022 à 20:472 304 × 2 048 (6,04 Mio)Benlisquare{{Information |Description=Demonstration of the use of DreamBooth to fine-tune a text-to-image diffusion model (in this particular case, Stable Diffusion) so that it can algorithmically generate highly specialised and customised image outputs. This demonstration features six output images of Jimmy Wales, founder of Wikipedia, performing bench press exercises...

La page suivante utilise ce fichier :

Usage global du fichier

Les autres wikis suivants utilisent ce fichier :