L'intelligence artificielle modifie le monde de l'art de manière remarquable. L'une des applications fascinantes de l'IA dans le domaine de l'art est l'utilisation de générateurs d'œuvres d'art descriptives. Ces générateurs ont la capacité d'examiner et d'interpréter des images et de générer des œuvres d'art entièrement nouvelles sur la base de leur analyse.
Dans cet article, nous examinons trois de ces générateurs d'art à base d'IA : MidJourney, Diffusion stable et Microsoft Bing Image Creator, et nous verrons lequel des trois parvient à générer les meilleurs résultats à partir d'invitations.
Voyage à mi-parcours
Voyage à mi-parcours, fondé par David Holz, est un générateur d'art par IA qui utilise l'apprentissage automatique pour identifier des modèles et des caractéristiques dans des œuvres d'art existantes, qui peuvent ensuite être utilisés pour créer de nouvelles œuvres.
MidJourney est entré en phase bêta ouverte le 12 juillet 2022. Avant de lancer MidJourney, Holz a cofondé Leap Motion, une startup qui a transformé les interfaces utilisateur en utilisant la capture vidéo et les gestes de la main. En 2019, il a vendu Leap Motion à Ultrahaptique.
MidJourney gagnant en popularité, Holz a partagé ses idées sur la technologie et son influence sur l'art et la société. Il considère les artistes comme des clients de MidJourney, et non comme des concurrents, et pense que la plateforme peut faciliter la créativité et l'expérimentation dans la phase d'idéation.
Il s'inquiète toutefois d'une éventuelle violation des droits d'auteur par l'ensemble de formation de MidJourney, qui peut inclure des œuvres protégées par le droit d'auteur d'autres artistes.
M. Holz insiste sur le fait que MidJourney est conçu pour améliorer les capacités humaines et non pour les remplacer. Il compare MidJourney aux voitures, expliquant que ce n'est pas parce que les voitures sont plus rapides que les humains qu'il faut se couper les jambes.
En utilisant la génération d'images par l'IA de MidJourney, les artistes peuvent explorer de nouvelles possibilités et générer de nombreuses idées avant de créer leurs propres œuvres.
Diffusion stable

Diffusion stable est un modèle d'apprentissage automatique à code source ouvert qui peut générer des images à partir de texte, modifier des images en fonction du texte ou remplir des détails sur des images à faible résolution ou peu détaillées. Il a été entraîné sur des milliards d'images et peut produire des résultats comparables à ceux que vous obtiendriez avec DALL-E 2 et MidJourney.
Emad Mostaque, fondateur et PDG de Stabilité AIest l'entreprise responsable de Stable Diffusion. Stable Diffusion est un modèle de diffusion latente développé par le groupe CompVis de l'université LMU de Munich. Il a été conçu par Patrick Esser et Robin Rombach, qui avaient déjà créé l'architecture du modèle de diffusion latente utilisé par Stable Diffusion.
Une collaboration entre Stability AI, CompVis LMU, Runway, EleutherAI et LAION a permis de rendre Stable Diffusion accessible au public.
Stable Diffusion peut être déployé sur différentes plateformes, y compris les appareils Windows et Apple. Le déploiement sur l'appareil dans une application peut protéger la vie privée de l'utilisateur, ce qui est préférable à une approche basée sur le serveur.
Créateur d'images Microsoft Bing

Microsoft a dévoilé un nouvel outil appelé Bing Image Creatorqui permet aux utilisateurs de créer leurs propres images directement dans Microsoft Edge. L'entreprise a lancé une série d'outils de création conçus pour stimuler la créativité et l'expression personnelle. L'outil permet aux utilisateurs de créer des images personnalisées pour partager les mises à jour de leur vie ou pour toute autre raison.
Les utilisateurs peuvent facilement accéder au créateur d'images à partir de la barre latérale de Microsoft Edge. Microsoft a pris des mesures proactives pour s'assurer que l'outil est utilisé de manière responsable et ne facilite pas la diffusion de contenus offensants.
L'entreprise a défini une politique de contenu qui interdit l'utilisation d'Image Creator dans certains cas, et les utilisateurs peuvent signaler toute violation de cette politique. En outre, Microsoft a mis en place une technologie pour remédier aux biais potentiels qui pourraient survenir dans la technologie de génération d'images.
Dans cet article, nous allons évaluer les résultats de chaque générateur d'images d'IA descriptive à partir de textes identiques.
Invitation 1 : Père Noël moderne sur un traîneau tiré par des rennes par une journée chaude et ensoleillée sur une autoroute



Proposition 2 : Un gros plan d'un animal avec de grands yeux, capturant son innocence et son côté mignon



Prompt 3 : Un astronaute humain jouant à atterrir sur une nouvelle planète est accueilli par des créatures extraterrestres hostiles qui sortent leurs armes



Invitation 4 : Art abstrait moderne d'une couverture de livre d'un roman basé à New York dans des couleurs vives et audacieuses



Proposition 5 : Un homme choisissant entre deux assiettes, l'une contenant une pizza et l'autre un cheeseburger



Prompt6 : Un guerrier blessé chevauchant son cheval sur une montagne enneigée, une épée à la main



Invitation 7 : Une image abstraite utilisant différentes teintes qui montre le mouvement et l'écoulement de l'eau



Proposition 8 : Saumon dans une rivière avec des arbres verdoyants en arrière-plan



Proposition 9 : Un verre d'eau sur une table avec un citron pressé par une main



Prompt 10 : Vue de l'horizon dans un désert du point de vue de personnes chevauchant un éléphant



Invitation 11 : Une forêt où le papier-monnaie pousse sur les arbres et où les oiseaux sont faits de pièces de monnaie



Prompt 12 : Bol de ramen, cel shading, éclairage du soir, photoréaliste



Prompt 13 : Elon Musk est pauvre et sans emploi



Verdict
En évaluant les résultats de MidJourney, Stable Diffusion et Bing Image Creator, il est évident qu'il n'y a pas de gagnant définitif.
Chaque générateur interprète les invitations d'une manière différente, avec des similitudes dans les résultats de Bing Image Creator et de MidJourney. La diffusion stable est efficace lorsque les invitations ont des descriptions claires mais prennent souvent les mots trop au pied de la lettre. Bien que MidJourney et Bing Image Creator soient généralement efficaces, ils produisent parfois des résultats qui ne correspondent pas aux invitations.
Notamment, Bing Image Creator fait preuve de prudence en générant des résultats abusifs ou incitatifs, en émettant un message d'avertissement lorsqu'on lui demande de créer l'image d'un Elon Musk pauvre et sans emploi. L'adoption de telles mesures de protection par Microsoft est louable.
En revanche, l'expertise du réseau neuronal de MidJourney a généré l'image d'un Elon Musk démuni et délaissé. On peut donc en conclure que chaque générateur répondra aux besoins de sa base d'utilisateurs respective.
Vous pouvez également explorer les meilleurs générateurs d'images AI pour obtenir des images étonnantes en quelques secondes.