Cette figurine n'existe pas : Dreambooth, Stable Diffusion et IA

Figurine générée par IA avec Dreambooth, expérimentation Geek Powa

L’essentiel sur l’entraînement d’une figurine via IA
En novembre 2022, on documentait l’entraînement d’un modèle Dreambooth pour Stable Diffusion à partir de photos d’une figurine 36 mm peinte à la main. 20-30 photos de référence, 60 à 90 minutes d’entraînement, et une figurine « qui n’existe pas » utilisable à l’infini dans des illustrations. Article-mémoire d’une époque où ce genre d’expérimentation demandait encore une carte graphique 24 Go.

La semaine dernière, je vous présentais mon travail sur les générations d’illustrations de Game of Rôles, en abordant la modélisation et l’entraînement de mes algorithmes. Pour rendre la chose plus concrète, j’ai pris hier soir en photo de référence une figurine 36 mm peinte par un ami. L’idée : entraîner un modèle pour pouvoir ensuite la mettre en scène à l’infini.

Quelques photos de référence qui m’ont servi à modéliser

Voici neuf des photos de référence prises sur la figurine. Idéalement, il en faut une trentaine pour un entraînement de qualité, sous tous les angles. Pour cet exemple, le sujet a été photographié à la lumière du jour, sans détourage préalable (par flemme, on en reparle plus bas).

Photo de référence d'une figurine 36mm pour entraînement Dreambooth

La modélisation 3D de la figurine via Dreambooth pour Stable Diffusion

Une fois que j’ai mes 20-30 photos de référence sous tous les angles, je dois les réduire en 512×512 pixels. Dans l’absolu, si je souhaite que le tout soit parfait pour l’entraînement, il faut les détourer en PNG (spoiler : j’ai eu la flemme, il était tard). Pour entraîner l’algorithme, il faut entre 60 minutes (qualité moyenne) et 1 h 30 (qualité top).

Notez que la modélisation des objets est loin de se démocratiser en 2022 : il faut une carte graphique puissante avec 24 Go de DDR (mémoire dédiée). Pour mon exemple, dont la figurine qui n’existe pas est visible en dessous, j’ai fait l’entraînement moyen pour aller vite et je n’ai pas fait le détourage. Mine de rien, même en modélisation « vite faite », le rendu est potable.

La galerie de la figurine qui n’existe pas

Voici la sortie brute du modèle entraîné. La figurine n’existe nulle part : c’est une variation hallucinée de l’original, mise en scène dans différents décors (bokeh, forêt, ville, pont, poses aléatoires). Le grain de cohérence visuelle est porté par le seul entraînement Dreambooth.

Figurine générée par IA via Dreambooth Stable Diffusion, variation 1

Figurine générée par IA via Dreambooth Stable Diffusion, variation 2

Comment améliorer le rendu de la figurine qui n’existe pas ?

Plusieurs leviers pour améliorer le rendu :

Prendre plus de photos de référence (30 idéalement, voire 50 pour un sujet complexe).
Détourer toutes les images en 512×512 et les enregistrer en PNG transparent (pas en JPG).
Entraîner Dreambooth sur plus de temps (1 h 30, 3 h, voire toute une nuit selon la profondeur souhaitée).

En moyenne, j’obtiens de bons résultats avec 2 h 00 de temps passé (prise de photos de référence, détourage, entraînement). Cette durée peut sembler longue, mais une fois modélisé, on peut employer mon « objet » à l’infini dans des créations.

Figurine retouchée après détourage, qualité améliorée

Planche de figurines 512x512 prête pour entraînement IA

Trois ans après : où en est la génération d’objets via IA ?

Cet article documentait un état de l’art de novembre 2022. Entre-temps, l’écosystème de la génération d’images par IA a explosé. Les techniques décrites ici sont aujourd’hui obsolètes dans leur forme exacte, mais leurs principes restent valides. Quelques jalons pour situer ce qui a changé :

Dreambooth a cédé la place aux LoRA (Low-Rank Adaptation), beaucoup plus légers à entraîner. Un LoRA tient en 50 à 200 Mo contre plusieurs gigaoctets pour un modèle Dreambooth complet, et s’entraîne en 30 à 60 minutes sur une carte graphique grand public.
ControlNet et IP-Adapter permettent désormais de contrôler la composition, la pose ou le style d’une figurine sans entraînement préalable. Quelques photos suffisent pour transposer la figurine dans des décors variés sans modélisation longue.
Stable Diffusion 3.5, Flux et FLUX.1 (Black Forest Labs) ont remplacé SD 1.5 comme références. Les modèles 2026 produisent un rendu plus cohérent, gèrent mieux les mains, le texte et les détails fins.
L’exigence matérielle a chuté. Une carte 12 Go en 2026 suffit largement pour entraîner un LoRA. Et pour qui n’a pas le hardware, des services cloud (RunPod, Replicate, Civitai) permettent l’entraînement en quelques euros par session.
L’éthique du sujet est devenue un débat structurant. Reproduire une figurine peinte par un ami sans transformation profonde, c’est techniquement faisable, mais les questions de droits d’auteur sur l’original (sculpteur, peintre) ont émergé. La pratique communautaire 2026 favorise les sujets clairement personnels ou en domaine public.

Pour les MJ qui veulent créer leurs propres références visuelles de PNJ, monstres ou objets, le ticket d’entrée 2026 est devenu trivial. Notre guide pour créer un personnage de JDR avec une IA détaille les outils accessibles aujourd’hui.

Applications concrètes pour une table de JDR

Au-delà de l’expérimentation technique, modéliser un sujet précis dans Stable Diffusion ouvre plusieurs usages directement applicables à une partie de jeu de rôle. En 2026, ces pratiques sont devenues courantes dans les communautés de MJ.

Cohérence visuelle d’un PNJ récurrent. Entraîner un LoRA sur un PNJ majeur permet de le retrouver visuellement identique d’une scène à l’autre. Plus de souci de continuité quand le grand méchant revient quinze sessions plus tard.
Bestiaire personnalisé. En entraînant l’IA sur la signature graphique d’un univers maison, on peut générer en quelques minutes les illustrations d’un bestiaire complet, sans copier les designs d’autres systèmes.
Cartes et plans cohérents. ControlNet permet de dessiner un plan grossier au stylo et de le transformer en carte stylisée façon donjon, taverne ou ville. Idéal pour les MJ qui n’ont pas la patience de Mike Schley.
Portraits PJ pour fiche perso. Chaque joueur peut générer un portrait précis de son personnage à partir d’une description, et l’évolution du portrait au fil de la campagne devient un petit rituel de table.
Décors d’ambiance pour VTT. Roll20 et Foundry adorent les arrière-plans dédiés. Une session d’IA bien préparée fournit en quelques heures la bibliothèque d’ambiances de toute une campagne.

Tous ces usages tiennent en quelques manipulations en 2026, là où l’article original parlait d’une carte graphique 24 Go et de 90 minutes d’entraînement minimum. C’est la principale leçon de ce flashback : ce qui était une niche d’expert il y a trois ans est devenu un outil grand public, accessible à un MJ qui sait copier-coller un prompt et patienter dix minutes.

Questions fréquentes sur l’IA et les figurines générées

Qu’est-ce que Dreambooth dans Stable Diffusion ?

Dreambooth est une technique d’apprentissage qui permet d’apprendre un sujet précis (objet, personne, figurine) à un modèle Stable Diffusion à partir d’une vingtaine de photos. Le modèle peut ensuite générer ce sujet dans n’importe quel contexte. En 2026, Dreambooth a largement cédé la place aux LoRA, plus rapides et légers.

Combien de photos de référence faut-il pour entraîner une figurine ?

Le minimum acceptable est de 15 à 20 photos sous différents angles. L’idéal monte à 30-50 photos pour un sujet complexe. Plus les photos couvrent d’angles, d’éclairages et d’expressions, plus le modèle final sera robuste dans des contextes variés.

Quel matériel pour entraîner un modèle Stable Diffusion en 2026 ?

En 2026, une carte graphique 12 Go (RTX 4070 ou équivalent) suffit largement pour entraîner un LoRA. Pour Dreambooth complet, il faut compter 16 à 24 Go. Les services cloud (RunPod, Replicate, Civitai) permettent aussi l’entraînement sans matériel local pour quelques euros par session.

LoRA, ControlNet, IP-Adapter : quelles différences ?

LoRA enseigne un sujet ou un style à un modèle (entraînement léger). ControlNet contrôle la composition, la pose ou la profondeur d’une image sans entraînement. IP-Adapter transpose le style ou l’apparence d’une image de référence vers une nouvelle génération. Les trois se combinent dans un pipeline professionnel.

Peut-on entraîner une IA sur n’importe quelle figurine ?

Techniquement oui, mais éthiquement non. Reproduire la figurine d’un sculpteur ou d’un peintre professionnel sans accord pose des questions de droits d’auteur. La pratique communautaire 2026 favorise les sujets personnels (figurines peintes par l’utilisateur), en domaine public, ou avec accord explicite du créateur.

Quelle qualité atteindre pour une utilisation publique des images ?

Pour un usage personnel (fiche de personnage, table de jeu privée), la sortie brute suffit. Pour une publication (blog, écran de MJ partagé, illustration de scénario), il vaut mieux retoucher manuellement les défauts (mains, visages, géométrie) en post-production sous Photoshop ou Procreate. Compter 10 à 30 minutes de retouche par image publiable.

Mise à jour le 21 mai 2026 — l’écosystème a totalement basculé sur LoRA (entraînement 30-60 min sur une carte 12 Go), ControlNet et IP-Adapter pour le contrôle fin, et Stable Diffusion 3.5 / Flux comme modèles de référence. Les techniques Dreambooth décrites restent valables conceptuellement mais sont rarement utilisées telles quelles aujourd’hui.

🎲 Rendez-vous chaque lundi soir à 21 h sur Twitch et YouTube pour la Chronique JDR en direct. 🎲