Le réseau neuronal "Gato" de DeepMind excelle dans de nombreuses tâches, notamment le contrôle de bras robotiques qui empilent des blocs, les jeux Atari 2600 et le sous-titrage d'images. Image : DeepMind.
Le monde est habitué à voir des gros titres sur la dernière percée des formes d'intelligence artificielle de deep learning. Cependant, la dernière réalisation de la division DeepMind de Google pourrait se résumer à « un programme d'IA qui fait un travail médiocre à bien des égards ».
Gato, le nom du programme de DeepMind, a été présenté récemment comme un programme dit multimodal, capable de jouer à des jeux vidéo, de chatter, d'écrire des compositions, de légender des images et de contrôler un bras robotique qui empile des blocs. Il s'agit d'un réseau neuronal capable de travailler avec plusieurs types de données pour accomplir plusieurs types de tâches.
« Avec un seul ensemble de poids, Gato peut dialoguer, légender des images, empiler des blocs avec un vrai bras robotique, surpasser les humains aux jeux Atari, naviguer dans des environnements 3D simulés, suivre des instructions, etc. », écrivent l'auteur principal Scott Reed et ses collègues dans leur article intitulé "A Generalist Agent".
publicité
Créer un précédent
Le cofondateur de DeepMind, Demis Hassabis, a encouragé l'équipe, s'exclamant dans un tweet : « Notre agent le plus généraliste à ce jour ! Un travail fantastique de l'équipe ! » Le seul hic, c'est que Gato n'est pas si génial que ça dans plusieurs tâches.
D'un côté, le programme est capable de faire mieux qu'un programme de machine learning dédié pour contrôler un bras robotique Sawyer qui empile des blocs. Mais d'un autre côté, il produit des légendes d'images qui, dans de nombreux cas, sont assez pauvres. Sa capacité à dialoguer par chat avec un interlocuteur humain est tout aussi médiocre, suscitant parfois des énoncés contradictoires et absurdes.
Et sa capacité à jouer à des jeux vidéo Atari 2600 est inférieure à celle de la plupart des programmes de machine learning dédiés conçus pour concourir dans le benchmark Arcade Learning Environment.
Pourquoi créer un programme qui fait certaines choses assez bien et un tas d'autres choses moins bien ? Selon les auteurs, il s'agit d'une attente. Il existe un précédent pour que des types de programmes plus généraux deviennent l'état de l'art de l'intelligence artificielle, et on s'attend à ce que des quantités croissantes de puissance de calcul compensent à l'avenir les lacunes.
Agent multitâche
La généralité peut avoir tendance à triompher en intelligence artificielle (IA). Comme le notent les auteurs, citant le spécialiste du sujet Richard Sutton, « historiquement, les modèles génériques qui tirent le mieux parti des calculs ont également eu tendance à dépasser les approches plus spécialisées dans un domaine spécifique ».
Comme l'a écrit Richard Sutton dans son propre billet de blog, « la plus grande leçon que l'on puisse tirer de 70 ans de recherche en IA est que les méthodes générales qui tirent parti du calcul sont finalement les plus efficaces, et de loin ».
Dans une thèse formelle, Scott Reed et son équipe testent « l'hypothèse selon laquelle la formation d'un agent qui est généralement capable d'accomplir un grand nombre de tâches est possible, et que cet agent général peut être adapté avec peu de données supplémentaires pour réussir un nombre encore plus grand de tâches ».
Le modèle, dans ce cas, est effectivement très général. Il s'agit d'une version du "Transformer", le type dominant de modèle basé sur l'attention qui est devenu la base de nombreux programmes, dont GPT-3. Un Transformer modélise la probabilité d'un élément donné compte tenu des éléments qui l'entourent – par exemple les mots d'une phrase.
1,18 milliard de paramètres de réseau
Dans le cas de Gato, les scientifiques de DeepMind sont en mesure d'utiliser la même recherche de probabilité conditionnelle sur de nombreux types de données.
« Pendant la phase de formation de Gato, les données provenant de différentes tâches et modalités sont sérialisées en une séquence plate de tokens, mises en lots et traitées par un réseau neuronal Transformer similaire à un grand modèle de langage. La perte est masquée, de sorte que Gato ne prédit que les cibles d'action et de texte », décrivent Scott Reed et ses collègues concernant la tâche d'entraînement du programme.
En d'autres termes, Gato ne traite pas les tokens différemment, qu'il s'agisse de mots dans une discussion ou de vecteurs de mouvement dans un exercice d'empilement de blocs. C'est du pareil au même.
L'hypothèse de Scott Reed et de son équipe comporte un corollaire, à savoir qu'une puissance de calcul toujours plus grande finira par l'emporter. Pour l'instant, Gato est limité par le temps de réponse d'un bras robotique Sawyer qui effectue l'empilement des blocs. Avec 1,18 milliard de paramètres de réseau, Gato est beaucoup plus petit que les très grands modèles d'IA comme GPT-3. A mesure que les modèles de deep learning grossissent, l'inférence entraîne une latence qui peut échouer dans le monde non déterministe d'un robot du monde réel.
Mais Scott Reed et ses collègues s'attendent à ce que cette limite soit dépassée à mesure que le matériel d'IA devient plus rapide à traiter. « Nous concentrons notre formation sur le point de fonctionnement de l'échelle du modèle qui permet le contrôle en temps réel des robots du monde réel, actuellement autour de 1,2 milliard de paramètres dans le cas de Gato », écrivent-ils. « Au fur et à mesure que le matériel et les architectures de modèle s'améliorent, ce point de fonctionnement augmentera naturellement la taille de modèle réalisable, poussant les modèles généralistes plus haut sur la courbe de la loi d'échelle. »
Les dangers potentiels d'un programme généraliste ?
Par conséquent, Gato est vraiment un modèle de la façon dont l'échelle de calcul continuera à être le principal vecteur du développement du machine learning, en rendant les modèles généralistes de plus en plus grands. Plus c'est gros, mieux c'est, en d'autres termes.
Et les auteurs ont quelques preuves de cela. Gato semble effectivement s'améliorer au fur et à mesure que sa taille augmente. Ils comparent les scores moyens sur l'ensemble des tâches de référence pour trois tailles de modèle selon les paramètres, 79 millions, 364 millions, et le modèle principal, 1,18 milliard. « Nous pouvons constater que, pour un nombre de tokens équivalent, les performances s'améliorent de manière significative avec l'augmentation de l'échelle », écrivent les auteurs.
Une question intéressante pour l'avenir est de savoir si un programme généraliste est plus dangereux que d'autres types de programmes d'IA. Les auteurs passent beaucoup de temps dans leur article à discuter du fait qu'il existe des dangers potentiels qui ne sont pas encore bien compris.
L'idée d'un programme capable de gérer plusieurs tâches suggère au profane une sorte d'adaptabilité humaine, mais cela peut être une dangereuse erreur de perception. « Par exemple, l'incarnation physique pourrait amener les utilisateurs à anthropomorphiser l'agent, ce qui conduirait à une confiance mal placée dans le cas d'un dysfonctionnement du système, ou pourrait être exploité par de mauvais acteurs », écrivent Scott Reed et son équipe.
« En outre, alors que le transfert de connaissances interdomaines est souvent un objectif dans la recherche en machine learning, il pourrait créer des résultats inattendus et non désirés si certains comportements (par exemple, les combats de jeux d'arcade) sont transférés dans le mauvais contexte. »
Par conséquent, ils précisent que « les considérations d'éthique et de sécurité du transfert de connaissances pourraient nécessiter de nouvelles recherches substantielles à mesure que les systèmes généralistes progressent ».
Le domaine de la robotique
Gato n'est en aucun cas unique dans sa tendance à la généralisation. Il s'inscrit dans une tendance générale à la généralisation et aux modèles de plus grande taille qui utilisent beaucoup de puissance. Parmi ses pairs, on trouve PaLM, le Pathways Language Model, introduit cette année par des experts de Google. Il s'agit d'un modèle avec 540 milliards de paramètres qui utilise une nouvelle technologie pour coordonner des milliers de puces, connue sous le nom de Pathways, également inventée par Google.
Ce qui est nouveau avec Gato, semble-t-il, c'est l'intention de prendre l'IA utilisée pour des tâches non robotiques et de la pousser dans le domaine de la robotique. Les créateurs de Gato, prenant acte des réalisations de Pathways et d'autres approches généralistes, considèrent que la réalisation ultime est une IA capable de fonctionner dans le monde réel, pour tout type de tâches.
« Les travaux futurs devraient envisager comment unifier ces capacités textuelles en un agent entièrement généraliste qui peut également agir en temps réel dans le monde réel, dans divers environnements et incarnations. »
Vous pourriez donc considérer Gato comme une étape importante sur la voie de la résolution du problème le plus difficile de l'IA, la robotique.
Source : ZDNet.com
Le "Gato" de DeepMind est médiocre, alors pourquoi l'avoir construit ? - ZDNet France
Read More
No comments:
Post a Comment