Un rapport décrit la création d’une capacité de recherche nationale sur l’IA de 2,6 milliards de dollars aux États-Unis

Nouvelles

Un rapport décrit la création d’une capacité de recherche nationale sur l’IA de 2,6 milliards de dollars aux États-Unis

La Maison Blanche Biden sur Mardi annoncé la publication d’un rapport final (Téléchargement PDF) décrivant un plan triennal visant à créer une ressource nationale de recherche sur l’intelligence artificielle (NAIRR).

Le NAIRR devrait être une infrastructure de recherche partagée sur l’IA à usage public, d’un coût de 2,6 milliards de dollars sur six ans. Le plan prévoit une approche en quatre phases sur trois ans pour créer une infrastructure d’IA “démocratisée” que les étudiants et les chercheurs pourront exploiter. Il fournira un accès aux ressources de données gouvernementales et non gouvernementales.

L’état de l’IA
La recherche sur l’IA est actuellement limitée aux entités “bien dotées”, d’où la nécessité du NAIRR, selon l’annonce de la Maison Blanche. Le rapport cite quelques chiffres à cet effet :

Même si les investissements privés dans l’IA ont plus que doublé entre 2020 et 2021 pour atteindre environ 93,5 milliards de dollars, le nombre de nouvelles entreprises a diminué. La disparité dans la disponibilité des ressources de recherche en IA affecte la qualité et le caractère de l’écosystème américain d’innovation en IA, contribuant à une « fuite des cerveaux » des meilleurs talents en IA des institutions universitaires et de recherche vers un petit ensemble de sociétés bien dotées en ressources.

Les pays qui ont fait des investissements à long terme dans la recherche sur l’IA, “comme la Chine”, voient des réalisations technologiques. La Chine a plus de citations de publications dans des revues d’IA et plus de demandes de brevet d’IA que les États-Unis.

Exigences en matière d’infrastructures
Le rapport décrit le type d’infrastructure qui sera nécessaire pour le NAIRR, indiquant que “les ressources informatiques devraient inclure des serveurs conventionnels, des clusters informatiques, le calcul haute performance et le cloud computing, et devraient prendre en charge l’accès aux ressources informatiques de pointe et aux bancs d’essai pour la R&D en IA. .”

Un supercalculateur sera également nécessaire :

Pour répondre aux besoins de capacité des utilisateurs, le système NAIRR devrait inclure au moins un supercalculateur d’apprentissage automatique à grande échelle capable de former des modèles de 1 000 milliards de paramètres.

Plans et financement du NAIRR
La création du NAIRR est envisagée comme nécessitant l’exécution de quatre étapes de planification sur trois ans.

La première phase de la construction du NAIRR consiste à autoriser des fonds pour son infrastructure. La deuxième phase (année 1) consiste à travailler avec une « entité d’exploitation », qui peut travailler avec des « fournisseurs de ressources ». Les opérations initiales du NAIRR devraient commencer au cours de la troisième étape (année 2). Enfin, la pleine capacité du NAIRR pour les opérations en régime permanent devrait se produire au cours de la quatrième étape (année 3).

Le NAIRR devrait coûter 2,6 milliards de dollars au cours de sa période initiale de six ans. Pour maintenir les ressources du NAIRR dans un état de pointe, le rapport envisage de faire de “nouveaux investissements de 750 millions de dollars” tous les deux ans.

Le rapport proposait également des estimations de coûts pour la construction de “grands modèles d’apprentissage en profondeur à forte intensité de calcul”, tels que mis en œuvre par OpenAI avec GPT-3 (175 milliards de paramètres) et Google (1,6 billion de paramètres).

Les estimations de coûts publiées indiquent que la formation d’un modèle de langage à 110 millions de paramètres coûte environ 50 000 $, qu’un modèle à 340 millions de paramètres coûte environ 200 000 $ et qu’un modèle à 1,5 milliard de paramètres coûte environ 1,6 million de dollars. Dans l’ensemble, le coût dépend de plusieurs facteurs, notamment la taille de l’ensemble de données d’entraînement, l’architecture du modèle et le nombre d’exécutions d’entraînement.

Opérations NAIRR
Les fournisseurs de ressources engagés par l’entité opérationnelle supervisant les opérations du NAIRR peuvent être des entités commerciales. Cependant, l’entité opérationnelle elle-même “devrait être une organisation non gouvernementale distincte”, explique le rapport.

La plupart des opérations, cependant, seraient gérées par les fournisseurs de ressources :

L’Entité Exploitante ne doit pas exploiter elle-même la totalité du matériel informatique composant le NAIRR ; au lieu de cela, les ressources informatiques, de données et de formation seraient fournies par des fournisseurs de ressources dans les universités, les FFRDC [federally funded research and development centers]et du secteur privé.

Le rapport envisage des entités privées en concurrence pour devenir des fournisseurs de ressources. Ils pourraient obtenir un « financement » en échange de la mise à disposition de leurs ressources, ou ils pourraient faire un échange pour avoir accès aux ressources du NAIRR.

Le NAIRR pourrait également tirer parti des ressources de données fédérales qui sont déjà stockées dans des nuages ​​commerciaux. Le rapport a souligné “plus de 36 pétaoctets de données de séquençage génomique à accès public et contrôlé hébergées par la National Library of Medicine du NIH” qui sont stockées sur deux plates-formes cloud commerciales. En outre, “42 et 10 pétaoctets de données météorologiques et environnementales publiques” collectées par la National Oceanic and Atmospheric Administration sont disponibles sur trois plates-formes cloud commerciales.

Le “National Artificial Intelligence Research Resource Task Force” a élaboré ce rapport après 1,5 ans de travail. Les membres du groupe de travail étaient composés de “12 experts de premier plan représentant à parts égales des universités, des gouvernements et des organisations privées”, nommés par le Bureau de la politique scientifique et technologique de la Maison Blanche (OSTP) et la National Science Foundation (NSF). L’effort de recherche a été lancé par le Loi de 2020 sur l’initiative nationale sur l’IA.

A propos de l’auteur



Kurt Macky est producteur principal de nouvelles pour le groupe Converge360 de 1105 Media.



Leave a Comment