L’équipe de recherche en robotique de Google a développé un nouveau modèle de langage et de robotique, PaLM-E, qui combine les capacités des grands modèles de langage avec les données des capteurs des robots. PaLM-E est un modèle généraliste, capable d’effectuer des tâches de vision et de langage, de contrôler des robots et d’apprendre efficacement.
Plus précisément, PaLM-E est entraîné à prédire la prochaine phrase ou le prochain mot dans un texte donné, en utilisant des techniques d’apprentissage profond telles que l’apprentissage par transfert et l’auto-apprentissage. Le modèle est ensuite finement ajusté sur des tâches de NLP spécifiques telles que la classification de texte ou la génération de texte.
Le modèle PaLM-E est considéré comme l’un des modèles de langage les plus performants disponibles actuellement, avec des résultats impressionnants sur une gamme de tâches de NLP telles que la compréhension de texte, la génération de texte, la traduction automatique et la réponse aux questions.
Comment fonctionne PaLM-E ?
Le PaLM-E fonctionne en injectant des observations dans un modèle de langage pré-entraîné, convertissant les données des capteurs, telles que les images, en une représentation comparable à la façon dont les mots du langage naturel sont traités. Les modèles de langage reposent sur un mécanisme de représentation mathématique du texte que les réseaux neuronaux peuvent traiter. Pour ce faire, le texte est divisé en “jetons” qui codent les mots et les associent à des vecteurs à haute dimension. Le modèle linguistique peut appliquer des opérations mathématiques à la séquence de vecteurs qui en résulte afin de prédire le prochain mot le plus probable. En introduisant le mot nouvellement prédit dans l’entrée, le modèle de langage peut générer itérativement un texte plus long.
Les entrées de PaLM-E sont du texte et d’autres modalités, telles que des images, des états de robots et des représentations de scènes, dans un ordre arbitraire, que nous appelons “phrases multimodales”. La sortie est un texte généré de manière autorégressive par PaLM-E, qui peut être une réponse à une question ou une séquence de décisions sous forme de texte.
Un modèle incarné et multimodal
PaLM-E est basé sur le modèle de langage PaLM et sur l’architecture ViT-22B pour la vision. L’idée de PaLM-E est d’entraîner des encodeurs qui convertissent une variété d’entrées dans le même espace que les enchâssements de mots naturels. Ces entrées continues sont transformées en quelque chose qui ressemble à des “mots”, bien qu’elles ne forment pas nécessairement des ensembles discrets. Comme les enchâssements de mots et d’images ont la même dimensionnalité, ils peuvent être introduits dans le modèle de langage.
PaLM-E est un modèle généraliste, conçu pour la robotique mais également capable d’effectuer des tâches de vision et de langage. PaLM-E peut décrire des images, détecter des objets, classer des scènes, citer des poèmes, résoudre des équations mathématiques et générer du code. Il combine l’efficacité de l’apprentissage basé sur le langage avec la capacité de contrôler des robots et d’apprendre efficacement.
Transfert de connaissances
PaLM-E offre une nouvelle façon de former des modèles généralistes, en combinant des tâches de robotique, de vision et de langage au moyen d’une représentation commune : prendre des images et du texte en entrée et produire du texte en sortie. L’un des principaux résultats est que PaLM-E réalise un transfert positif de connaissances à partir des domaines de la vision et du langage, ce qui améliore l’efficacité de l’apprentissage des robots.
Le transfert positif de connaissances des tâches de vision et de langage vers la robotique permet au PaLM-E de traiter simultanément un large ensemble de tâches de robotique, de vision et de langage, sans dégradation des performances par rapport à l’apprentissage de modèles individuels sur des tâches individuelles. Les données relatives à la vision et au langage améliorent considérablement les performances des tâches robotiques. Ce transfert permet à PaLM-E d’apprendre les tâches robotiques de manière efficace en termes de nombre d’exemples nécessaires pour résoudre une tâche.
Les résultats montrent que PaLM-E peut s’attaquer efficacement à un ensemble varié de tâches robotiques, de vision et de langage. Lorsque PaLM-E est chargé de prendre des décisions concernant un robot, il s’associe à une politique linguistique de bas niveau pour traduire le texte en actions de bas niveau pour le robot.
Quelques exemples
Dans un exemple, PaLM-E contrôle un robot mobile dans une cuisine pour ramasser un sac de pommes de terre. Dans un autre exemple, le robot est chargé de ramasser un bloc vert. Bien que le robot n’ait jamais vu ce bloc auparavant, PaLM-E génère un plan étape par étape qui se généralise au-delà des données d’apprentissage du robot.
Dans un autre environnement, le modèle PaLM-E résout des tâches de haut niveau et de longue durée, telles que “ranger des blocs par couleur dans des coins”, directement à partir d’images et en produisant une séquence d’actions représentées sous forme de texte. Le modèle PaLM-E démontre également sa capacité à se généraliser à de nouvelles tâches qui n’ont pas été observées pendant la période d’apprentissage, telles que pousser des blocs rouges vers une tasse à café.
PaLM-E représente sans aucun doute une avancée significative dans le domaine de la robotique, en combinant la capacité des modèles de langage avec le transfert de connaissances à partir de tâches de vision et de langage pour aborder un large éventail de tâches robotiques. Cette approche multimodale et incarnée a également le potentiel d’unifier des tâches qui semblaient auparavant séparées. La capacité du PaLM-E à exécuter efficacement des tâches linguistiques, visuelles et robotiques, et à se généraliser à de nouvelles tâches inédites, a des implications importantes pour l’avenir de la robotique et de l’apprentissage multimodal.