n d’autres termes, il s’agit de créer une image à partir d’une description en langage naturel. Imaginez que vous tapiez la description d’une image que vous aimeriez avoir et que vous puissiez soudain la créer. C’est précisément la tâche que NVIDIA tente de résoudre avec son nouveau modèle, Perfusion AI.
Qu’est-ce que Perfusion AI ?
Perfusion AI est un modèle d’intelligence artificielle qui permet de créer des images à partir de descriptions en langage naturel, telles que DALL-E ou Midjourney. Ce modèle représente une amélioration significative par rapport aux techniques existantes, car il permet de générer des images plus fidèles au contenu original.
Le modèle fonctionne en apprenant le “concept” d’un objet, d’un animal ou d’une personne, puis en générant ce concept dans de nouvelles situations. Le modèle est basé sur la diffusion stable, qui est également utilisée pour générer des images à partir de texte.
La publication de l’article par Nvidia suggère qu’il a été accepté au SIGGRAPH 2023, mais ne fournit pas d’informations spécifiques sur la date à laquelle il pourra être utilisé.
Comment fonctionne Perfusion AI ?
Perfusion AI utilise une architecture de diffusion stable pour générer des images à partir de texte. Cela signifie que le modèle apprend à créer des images de manière itérative, en ajustant progressivement l’image au fur et à mesure que la description en langage naturel est traitée.
Ce qui différencie Perfusion AI des autres modèles de ce type, c’est qu’il permet un plus grand contrôle sur le processus de génération d’images. En particulier, le modèle peut générer plusieurs “concepts” dans une seule image et maintenir la cohérence entre eux. C’est une chose que les modèles précédents ne pouvaient pas faire.
Le modèle utilise également une technique appelée “Rank-1 Model editing” pour optimiser le processus de génération d’images. Cette technique permet au modèle de se concentrer sur les concepts spécifiques décrits dans la description en langage naturel, plutôt que d’essayer de traiter l’ensemble de l’image en une seule fois.
Quelles sont les limites de Perfusion AI ?
Bien que Perfusion AI soit un modèle impressionnant, il existe encore quelques limitations dont il faut être conscient. L’une d’entre elles est que le modèle a parfois des difficultés à maintenir l’identité de l’objet généré. Cela est dû au fait que le modèle utilise des catégories générales, plutôt que des descriptions plus détaillées, pour générer des images.
Une autre limite est que la génération d’images comprenant plusieurs concepts peut être un processus compliqué qui nécessite une ingénierie précise des messages-guides. En d’autres termes, si vous souhaitez générer une image comprenant plusieurs objets différents, vous devrez décrire précisément chacun d’entre eux dans la description en langage naturel.
Que signifie Perfusion AI pour l’avenir de l’intelligence artificielle ?
Perfusion AI est un pas important dans la bonne direction pour la génération d’images à partir de texte. Bien qu’il y ait encore des limites à prendre en compte, le modèle offre un meilleur contrôle et une plus grande fidélité dans la génération d’images que les modèles précédents.
À l’avenir, nous pouvons nous attendre à voir des modèles encore plus avancés, capables de générer des images encore plus précises et détaillées à partir de descriptions en langage naturel. Cela pourrait avoir un impact considérable sur un grand nombre d’industries, de la publicité à la création de contenu numérique.




