Découvrez ReCo : une extension d’IA pour les modèles de diffusion afin d’activer le contrôle régional

Modèles texte-image à grande échelle, vous regarde Stable Diffusionont dominé l’espace de l’apprentissage automatique ces derniers mois. Ils ont montré des performances de génération extraordinaires dans différents contextes et nous ont fourni des visuels que nous n’aurions jamais cru possibles auparavant.

Les modèles de génération de texte en image tentent de générer des images réalistes avec une invite de saisie de texte décrivant à quoi elles devraient ressembler. Par exemple, si vous lui demandez de générer “Homer Simpson marchant sur la lune”, vous obtiendrez probablement une image agréable avec des détails généralement corrects. Cet énorme succès des modèles de génération ces dernières années est principalement dû aux jeux de données et aux modèles à grande échelle utilisés.

Aussi bons qu’ils paraissent, les modèles de diffusion peuvent toujours être considérés comme des modèles à un stade précoce car ils manquent de certaines propriétés qui devraient être traitées dans les années à venir.

Tout d’abord, l’entrée de requête de texte limite le contrôle de l’image de sortie. Concrètement, il est difficile de définir précisément ce que l’on veut à quel endroit sur l’image de sortie. Si vous souhaitez dessiner certains objets à certains endroits, comme un beignet dans le coin supérieur gauche, les modèles existants peuvent avoir du mal à le faire.

Deuxièmement, lorsque la requête de texte d’entrée est longue et quelque peu compliquée, les modèles existants négligent certains détails et se contentent d’utiliser les informations préalables qu’ils ont apprises pendant la phase de formation. Lorsque nous combinons ces deux problèmes, il devient problématique de contrôler la région des images générées par les modèles existants.

De nos jours, lorsque vous souhaitez obtenir l’image souhaitée, vous devez essayer un grand nombre de requêtes paraphrasées et choisir la sortie la plus proche de l’image souhaitée. Vous avez probablement entendu parler de “l’ingénierie rapide”, et c’est le nom du processus. Cela prend du temps et rien ne garantit qu’il produira l’image souhaitée pour vous.

Donc, maintenant nous savons que nous avons un problème avec les modèles texte-image existants. Mais nous ne sommes pas ici pour parler des problèmes, n’est-ce pas ? Permettez-moi de vous présenter à ReCOla personnalisation du modèle texte-image qui vous permet de générer des images de sortie contrôlées avec précision.

Les modèles texte-image contrôlés par région sont étroitement liés au problème de mise en page-image. Ces modèles prennent des boîtes englobantes d’objets avec des étiquettes comme entrées et génèrent l’image souhaitée. Cependant, malgré leurs résultats prometteurs dans le contrôle des régions, leur dictionnaire d’étiquettes limité rend difficile la compréhension des entrées de texte de forme libre.

Au lieu de suivre l’approche mise en page-image, qui modélise le texte et les objets séparément, ReCO combine ces deux conditions d’entrée et les modélise ensemble. Ils appellent cette approche un problème de « texte-image contrôlé par région ». De cette façon, deux conditions d’entrée, texte et région, sont combinées de manière transparente.

ReCO est une extension des modèles texte-image existants. Il permet aux modèles pré-formés de comprendre les entrées de coordonnées spatiales. L’idée centrale est d’introduire un ensemble supplémentaire de jetons de position d’entrée pour indiquer les positions spatiales. Ces jetons de position sont intégrés dans l’image en la divisant en régions de taille égale. Ensuite, chaque jeton peut être intégré dans la région la plus proche.

Les jetons de position de ReCO permettent la spécification précise de descriptions régionales ouvertes sur n’importe quelle zone d’une image, créant une nouvelle interface de saisie de texte utile avec contrôle de région.


Vérifiez Papier. Tout le crédit pour cette recherche va aux chercheurs sur ce projet. N’oubliez pas non plus de vous inscrire notre page Reddit et canal de discordeoù nous partageons les dernières nouvelles sur la recherche en IA, des projets d’IA sympas, et plus encore.


Ekrem Çetinkaya a obtenu son B.Sc. en 2018 et M.Sc. en 2019 de l’Université Ozyegin, Istanbul, Türkiye. Il a écrit son M.Sc. thèse sur le débruitage d’images à l’aide de réseaux convolutifs profonds. Il poursuit actuellement un doctorat. diplôme à l’Université de Klagenfurt, en Autriche, et travaillant comme chercheur sur le projet ATHENA. Ses intérêts de recherche comprennent l’apprentissage en profondeur, la vision par ordinateur et les réseaux multimédias.


Leave a Comment