Un nouveau cadre d’IA appelé Text2Poster génère automatiquement des affiches visuellement efficaces à partir des informations textuelles

Les affiches ont été largement utilisées dans de nombreux contextes commerciaux et à but non lucratif pour promouvoir et diffuser des informations en tant que type de média avec des éléments artistiques et pratiques. Par exemple, les entreprises de commerce électronique utilisent des bannières accrocheuses pour faire la publicité de leurs produits. Les sites Web d’événements sociaux, comme ceux des conférences, sont souvent agrémentés d’affiches opulentes et éducatives. Ces affiches de haute qualité sont créées en intégrant un lettrage stylé dans des images de fond appropriées, ce qui nécessite beaucoup d’édition manuelle et une intuition esthétique non quantitative. Cependant, une approche aussi chronophage et subjective ne peut pas satisfaire la demande énorme et en croissance rapide de panneaux bien conçus dans les applications du monde réel, ce qui diminue l’efficacité de la diffusion de l’information et entraîne des effets marketing moins qu’idéaux.

Dans ce travail, ils proposent Text2Poster, un cadre unique basé sur les données qui produit un générateur d’affiches automatique efficace. Le Text2Poster utilise initialement un modèle textuel visuel préformé de grande taille pour récupérer les images de fond appropriées à partir des textes d’entrée, comme le montre la figure ci-dessous. Le cadre échantillonne ensuite à partir de la distribution de mise en page prédite pour établir la mise en page des textes, puis affine à plusieurs reprises la mise en page à l’aide d’encodeurs automatiques en cascade. Enfin, il obtient la couleur et la police du texte à partir d’une collection de couleurs et de polices de caractères qui incluent des balises sémantiques. Ils acquièrent les modules du cadre grâce à l’utilisation de techniques d’apprentissage faiblement et auto-supervisé. Les expériences montrent que leur système Text2Poster peut produire automatiquement des affiches de haute qualité, surpassant ses rivaux académiques et commerciaux sur des mesures objectives et subjectives.

Génération de l’affiche avec Tesxt2Poster

Les étapes que prend le backend sont les suivantes :

  1. Utilisation d’un modèle visuel-textuel formé pour récupérer des images : ils souhaitent étudier les photos qui sont “faiblement associées” aux phrases tout en collectant des images de fond pour le développement d’affiches. Par exemple, ils aiment découvrir des images avec des métaphores d’amour lors de la collecte de photos pour le terme “Le mariage de Bob et Alice”, comme une image d’une église blanche contre un ciel bleu. Ils utilisent le BriVL, l’un des modèles visuels-textuels pré-entraînés SOTA, pour atteindre cet objectif en récupérant des images d’arrière-plan à partir de textes.
  2. En utilisant des encodeurs automatiques en cascade pour la prédiction de la mise en page, les sections lisses de l’image sont d’abord trouvées. Une fois les zones lisses trouvées, la région lisse est colorée sur la carte de saillance. Une distribution de disposition d’ampli estimée est maintenant présentée.
  3. Stylisation du texte : le texte est combiné avec l’image d’origine en fonction de la disposition prévue.

Ils ont une page GitHub où vous pouvez accéder au code d’inférence pour utiliser Text2Poster. Téléchargez les fichiers de code source pour faire fonctionner le programme. Une autre façon d’utiliser le programme consiste à utiliser leurs API Quickstart. Tous les détails d’utilisation sont écrits sur leur page GitHub.


Vérifiez Papier et GithubGenericName. Tout le mérite de cette recherche revient aux chercheurs de ce projet. N’oubliez pas non plus de vous inscrire notre page Reddit, Chaîne discorde, et Courrieloù nous partageons les dernières nouvelles sur la recherche en IA, des projets d’IA sympas, et plus encore.


Aneesh Tickoo est consultante stagiaire chez MarktechPost. Il poursuit actuellement ses études de premier cycle en science des données et en intelligence artificielle à l’Institut indien de technologie (IIT) de Bhilai. Il passe la plupart de son temps à travailler sur des projets visant à exploiter la puissance de l’apprentissage automatique. Son intérêt de recherche est le traitement d’images et est passionné par la construction de solutions autour de celui-ci. Il aime se connecter avec les gens et collaborer sur des projets intéressants.


Leave a Comment