Découvrez ConvNeXt V2 : un modèle d’IA qui améliore les performances et la capacité de mise à l’échelle des réseaux ConvNet à l’aide d’auto-encodeurs masqués

Le domaine de la vision par ordinateur a connu des progrès significatifs au cours de la dernière décennie, et ces progrès peuvent être principalement attribués à l’émergence des réseaux de neurones convolutifs (CNN). Les capacités impeccables des CNN à traiter les données 2D, grâce à leur mécanisme d’extraction de caractéristiques hiérarchiques, ont été un facteur clé de leur succès.

Les CNN modernes ont parcouru un long chemin depuis leur introduction. Mécanismes de formation mis à jour, augmentations de données, paradigmes de conception de réseau améliorés, etc. La littérature regorge d’exemples réussis de ces propositions qui ont rendu les CNN beaucoup plus puissants et efficaces.

D’autre part, l’aspect open source du domaine de la vision par ordinateur a contribué à des améliorations significatives. Grâce à des modèles visuels à grande échelle pré-entraînés largement disponibles, l’apprentissage des fonctionnalités est devenu beaucoup plus efficace ; ainsi, partir de zéro n’était pas le cas pour la majorité des modèles de vision.

De nos jours, les performances d’un modèle de vision sont principalement déterminées par trois facteurs : l’architecture de réseau de neurones choisie, la méthode d’entraînement et les données d’entraînement. L’avancement de l’un de ces trios se traduit par une augmentation significative des performances globales.

Parmi ces trois, les innovations dans l’architecture de réseau ont joué la plus grande importance dans l’avancement. Les CNN ont supprimé le besoin d’ingénierie manuelle des fonctionnalités en permettant l’utilisation de méthodes génériques d’apprentissage des fonctionnalités. Il n’y a pas si longtemps, nous avons eu la percée des architectures de transformateurs dans le domaine du traitement du langage naturel, et elles ont été transférées dans le domaine de la vision. Les transformateurs ont eu beaucoup de succès grâce à leur forte capacité de mise à l’échelle des données et de la taille du modèle. Puis finalement, ces dernières années, l’architecture ConvNeXt a été introduite. Il a modernisé les réseaux convolutionnels traditionnels et nous a montré que les modèles de convolution pure pouvaient également être capables de mise à l’échelle.

Cependant, nous avons un problème mineur ici. Toutes ces « avancées » ont été mesurées à l’aide d’une seule tâche de vision par ordinateur, les performances de reconnaissance d’images supervisées sur ImageNet. C’est toujours la méthode la plus courante pour explorer l’espace de conception des architectures de réseaux de neurones.

D’autre part, nous avons des chercheurs qui étudient une manière différente d’enseigner aux réseaux de neurones comment traiter les images. Au lieu d’utiliser des images étiquetées, ils utilisent une approche auto-supervisée où le réseau doit déterminer lui-même ce qu’il y a dans l’image. Les encodeurs automatiques masqués sont l’un des moyens les plus populaires d’y parvenir. Ils sont basés sur la technique de modélisation du langage masqué, largement utilisée dans le traitement du langage naturel.

Il est possible de mélanger et d’associer différentes techniques lors de la formation de réseaux de neurones, mais c’est délicat. On peut combiner le ConvNeXt avec des auto-encodeurs masqués. Cependant, étant donné que les auto-encodeurs masqués sont conçus pour fonctionner au mieux avec des transformateurs pour traiter des données séquentielles, il peut être trop coûteux en calcul de les utiliser avec des réseaux convolutionnels. De plus, la conception peut ne pas être compatible avec les réseaux convolutifs en raison du mécanisme de fenêtre coulissante. Et des recherches antérieures ont montré qu’il peut être difficile d’obtenir de bons résultats lors de l’utilisation de méthodes d’apprentissage auto-supervisées telles que les auto-encodeurs masqués avec des réseaux convolutifs. Par conséquent, il est crucial de garder à l’esprit que différentes architectures peuvent avoir différents comportements d’apprentissage des fonctionnalités qui peuvent avoir un impact sur la qualité du résultat final.

C’est là que ConvNeXt V2 entre en jeu. Il s’agit d’une architecture de co-conception qui utilise l’auto-encodeur masqué dans le cadre ConvNeXt pour obtenir des résultats similaires à ceux obtenus à l’aide de transformateurs. Il s’agit d’une étape vers l’efficacité des méthodes d’apprentissage auto-supervisées basées sur des masques pour les modèles ConvNeXt.

Concevoir l’auto-encodeur masqué pour ConvNeXt était le premier défi, et ils l’ont résolu de manière intelligente. Ils traitent l’entrée masquée comme un ensemble de patchs clairsemés et utilisent des convolutions clairsemées pour traiter uniquement les parties visibles. De plus, la partie décodeur de transformateur dans l’auto-encodeur masqué est remplacée par un seul bloc ConvNeXt, ce qui rend l’ensemble de la structure entièrement convolutive, ce qui améliore en retour l’efficacité de la pré-formation.

Enfin, une couche de normalisation de réponse globale est ajoutée au cadre pour améliorer la concurrence des fonctionnalités inter-canaux. Cependant, ce changement est effectif lorsque le modèle est pré-entraîné avec des auto-encodeurs masqués. Par conséquent, la réutilisation d’une conception d’architecture fixe à partir d’un apprentissage supervisé peut être sous-optimale.

ConvNeXt V2 améliore les performances lorsqu’il est utilisé avec des auto-encodeurs masqués. Il est spécialement conçu pour les tâches d’apprentissage auto-supervisé. L’utilisation de la pré-formation de l’auto-encodeur masqué entièrement convolutif peut améliorer considérablement les performances des réseaux convolutifs purs.


Vérifiez Papier et GithubGenericName. Tout le mérite de cette recherche revient aux chercheurs de ce projet. N’oubliez pas non plus de vous inscrire notre page Reddit, Chaîne discorde, et Courrieloù nous partageons les dernières nouvelles sur la recherche en IA, des projets d’IA sympas, et plus encore.


Ekrem Çetinkaya a obtenu son B.Sc. en 2018 et M.Sc. en 2019 de l’Université Ozyegin, Istanbul, Türkiye. Il a écrit son M.Sc. thèse sur le débruitage d’images à l’aide de réseaux convolutifs profonds. Il poursuit actuellement un doctorat. diplôme à l’Université de Klagenfurt, en Autriche, et travaillant comme chercheur sur le projet ATHENA. Ses intérêts de recherche comprennent l’apprentissage en profondeur, la vision par ordinateur et les réseaux multimédias.


Leave a Comment