Par Mike Roberts, chercheur scientifique à Laboratoires Inteloù il travaille sur l’utilisation de données synthétiques photoréalistes pour des applications de vision par ordinateur
Les simulateurs interactifs deviennent des outils puissants pour la formation de systèmes d’intelligence artificielle (IA) incarnés, mais les simulateurs existants ont une diversité de contenu, une interactivité physique et une fidélité visuelle limitées.
Pour mieux servir la communauté des développeurs d’IA incarnée, Intel Labs a collaboré avec le Computer Vision Center en Espagne, Kujiale en Chine et l’Université technique de Munich pour développer le simulateur pour la recherche sur l’IA incarnée photoréaliste (SPEAR).
Cette plate-forme de simulation hautement réaliste aide les développeurs à accélérer la formation et la validation d’agents incarnés pour un ensemble croissant de tâches et de domaines.
Avec sa vaste collection d’environnements intérieurs photoréalistes, SPEAR s’applique à un large éventail de tâches domestiques de navigation et de manipulation. En fin de compte, SPEAR vise à stimuler la recherche et les applications commerciales dans la robotique domestique et la fabrication, y compris les scénarios d’interaction homme-robot et les applications de jumeau numérique.
Pour créer SPEAR, Intel Labs a travaillé en étroite collaboration avec une équipe d’artistes professionnels pendant plus d’un an pour construire une collection d’environnements interactifs de haute qualité, fabriqués à la main. Actuellement, SPEAR propose un pack de démarrage de 300 environnements intérieurs virtuels avec plus de 2 500 pièces et 17 000 objets pouvant être manipulés individuellement.
Ces environnements de formation interactifs utilisent une géométrie détaillée, des matériaux photoréalistes, une physique réaliste et un éclairage précis. De nouveaux packs de contenu ciblant les domaines de l’industrie et de la santé seront bientôt publiés.
En offrant des environnements plus vastes, plus diversifiés et réalistes, SPEAR aide tout au long du cycle de développement des systèmes d’IA incarnés et permet de former des agents robustes à opérer dans le monde réel, potentiellement même directement à partir de la simulation.
SPEAR aide à améliorer la précision de nombreuses tâches d’IA incarnées, en particulier la traversée et la réorganisation d’environnements intérieurs encombrés. En fin de compte, SPEAR vise à réduire le délai de mise sur le marché des applications de robotique domestique et d’entrepôt intelligent, et à accroître l’intelligence spatiale des agents incarnés.
Les défis de la formation et de la validation des systèmes d’IA incarnés
Dans le domaine de l’IA incarnée, les agents apprennent en interagissant avec différentes variables du monde physique. Cependant, la capture et la compilation de ces interactions dans les données de formation peuvent prendre du temps, être laborieuses et potentiellement dangereuses.
En réponse à ce défi, la communauté de l’IA incarnée a développé une variété de simulateurs interactifs, où les robots peuvent être entraînés et validés en simulation avant d’être déployés dans le monde physique.
Alors que les simulateurs existants ont permis des progrès rapides sur des tâches du monde réel de plus en plus complexes et ouvertes telles que la navigation par objectif et objet, la manipulation d’objets et la conduite autonome, ces simulations ont plusieurs limites.
Les simulateurs qui utilisent des environnements créés par des artistes fournissent généralement une sélection limitée de scènes uniques, telles que quelques dizaines de maisons ou quelques centaines de pièces isolées, ce qui peut entraîner un surajustement sévère et de mauvaises performances de transfert sim-to-real.
D’autre part, les simulateurs qui utilisent des environnements 3D numérisés fournissent de plus grandes collections de scènes, mais offrent peu ou pas d’interactivité avec les objets.
De plus, les deux types de simulateurs offrent une fidélité visuelle limitée, soit parce qu’il est trop laborieux de créer des ressources artistiques haute résolution, soit en raison d’artefacts de numérisation 3D.

Présentation de SPEAR
SPEAR a été conçu sur la base de trois exigences principales :
- prendre en charge une collection d’environnements aussi vaste, diversifiée et de haute qualité que possible ;
- fournir un réalisme physique suffisant pour prendre en charge des interactions réalistes avec un large éventail d’objets ménagers ; et
- offrent autant de photoréalisme que possible, tout en maintenant une vitesse de rendu suffisante pour prendre en charge la formation de comportements complexes d’agents incarnés.
Motivé par ces exigences, SPEAR a été implémenté sur Unreal Engine, qui est un moteur de jeu open source de puissance industrielle. Les environnements SPEAR sont implémentés en tant qu’actifs Unreal Engine, et SPEAR fournit une interface OpenAI Gym pour interagir avec les environnements via Python.

SPEAR prend actuellement en charge quatre agents incarnés distincts :
- L’agent OpenBot fournit des observations d’image identiques à un monde réel OpenBotimplémente une interface de contrôle identique et a été modélisé avec une géométrie et des paramètres physiques précis. Il est bien adapté aux expériences sim-to-real.
- L’agent Fetch et l’agent LoCoBot ont également été modélisés à l’aide de paramètres géométriques et physiques précis, et chacun possède une pince physiquement réaliste. Ces agents sont idéaux pour les tâches de réarrangement.
- L’agent caméra peut être téléporté n’importe où, ce qui le rend utile pour collecter des ensembles de données statiques.
Figure 3. L’agent LoCoBot convient à la fois à la navigation et à la manipulation dans la simulation. La préhension réaliste de cet agent le rend idéal pour les tâches de réarrangement.
Par défaut, les agents renvoient des observations égocentriques photoréalistes à partir de capteurs de caméra, ainsi que des états d’encodeur de roue et des états d’encodeur conjoint. De plus, les agents peuvent éventuellement renvoyer plusieurs types d’informations privilégiées.
Tout d’abord, les agents peuvent renvoyer une séquence de points de cheminement représentant le chemin le plus court vers un emplacement d’objectif, ainsi que des observations GPS et de boussole qui pointent directement vers l’objectif, qui peuvent tous deux être utiles lors de la définition des tâches de navigation.
Deuxièmement, les agents peuvent renvoyer des images de profondeur et de segmentation sémantique au pixel près, ce qui peut être utile pour contrôler les effets d’une perception imparfaite dans les tâches incarnées en aval et collecter des ensembles de données statiques.
SPEAR prend actuellement en charge deux tâches distinctes :
- La tâche de navigation Point-Goal sélectionne au hasard une position d’objectif dans l’espace accessible de la scène, calcule une récompense en fonction de la distance de l’agent par rapport à l’objectif et déclenche la fin d’un épisode lorsque l’agent rencontre un obstacle ou l’objectif.
- La tâche de forme libre est une tâche d’espace réservé vide qui est utile pour collecter des ensembles de données statiques.
SPEAR est disponible sous une licence MIT open-source, prête à être personnalisée sur n’importe quel matériel. Pour plus de détails, visitez le Page GitHub de SPEAR.