Voici ce qui empêche l’IA d’atteindre une compréhension humaine

0
203

Le court extrait ci-dessous du film de 1938 La Femme du Boulanger (The Baker’s Wife) illustre ingénieusement comment l’esprit humain peut extraire un sens profond des expériences de la vie et des situations perçues. Dans le film, réalisé par Marcel Pagnol, le boulanger Aimable accueille sa femme Aurélie, qui vient de rentrer après s’être enfuie avec un berger quelques jours plus tôt.

Alors qu’Aimable traite Aurélie avec des mots doux et un pain en forme de cœur (qu’il avait fait cuire pour lui-même), il ne montre aucune gentillesse envers Pomponette, sa chatte qui rentre par hasard en même temps qu’Aurélie, après avoir abandonné son compagnon Pompon pour une chat de gouttière (chat de couloir). Appels aimables Pomponette ordur (indésirable) et un salope (un terme grossier) qui s’est enfui avec un inconnu (personne) et bon-a-rien (bon à rien) alors que la pauvre Pompon la cherchait misérablement partout.

Alors qu’Aimable coupe le chat à sa taille avec son fouet, Aurélie se recroqueville sur son siège et commence à sangloter.

« Qu’est-ce qu’il a de mieux que [Pompon]?  » Aimable demande. « Rien (rien) », répond Aurélie d’une voix tremblante, à peine au-dessus d’un murmure. On ne sait pas si elle parle du chat errant ou du berger.

« Vous dites rien», Aimable raconte sa femme d’une voix douce et douce. « Mais si elle pouvait parler », dit-il, sa voix redevenant sévère alors qu’il retournait son regard vers Pomponette, « si elle n’avait pas honte, si elle n’avait pas peur de souffrir pauvre Pompon, elle dirait: « Il est plus joli. » « Encore une fois, il y a beaucoup de sens cachés et d’accusations dans ses mots.

Alors qu’Aimable se promène, apparemment inconscient de la réaction de sa femme, Pomponette commence à boire du lait dans le bol de Pompon. Et c’est là qu’il conduit le poignard. «Regardez là-bas», dit-il. «C’est pourquoi elle est revenue. Elle avait froid et faim. »

Pendant ce temps, Aurélie tient pour lui le pain en forme de cœur qu’Aimable avait préparé.

La plupart des humains peuvent extraire les significations profondes, les métaphores et les nuances complexes cachées dans les cadres d’image en niveaux de gris floconneux et les ondes sonores bruyantes de cette séquence vidéo. Nous pouvons sympathiser avec Aimable et Aurelie (et les associer à nos propres expériences de vie précédentes).

Mais la technologie d’intelligence artificielle la plus avancée que nous ayons aujourd’hui – notre meilleure imitation du cerveau – peut au mieux voir les personnes et les visages, détecter les genres et les objets, et fournir des descriptions très basiques comme «un couple qui dîne à une table».

Ce n’est qu’un aperçu de la capacité de l’esprit humain à comprendre le monde et à quel point il reste difficile de le reproduire après six décennies de recherche en intelligence artificielle.

« Les humains sont capables de » réellement comprendre « les situations qu’ils rencontrent, alors que même les systèmes d’IA les plus avancés n’ont pas encore une compréhension humaine des concepts que nous essayons de leur enseigner », écrit un informaticien et chercheur en IA. Melanie Mitchell en elle dernier article pour Magazine AI.

Dans son article, Mitchell, qui est également professeur au Santa Fe Institute et auteur d’un livre récent sur l’intelligence artificielle, discute des luttes des systèmes d’IA actuels, à savoir l’apprentissage en profondeur, en extrayant du sens des informations qu’ils traitent.

Le deep learning est très bon pour dénicher les corrélations entre des tonnes de points de données, mais quand il s’agit de creuser plus profondément dans les données et de former des abstractions et des concepts, ils n’effleurent à peine la surface (même cela pourrait être une surestimation). Nous avons des systèmes d’intelligence artificielle qui peuvent localiser des objets dans des images et convertir de l’audio en texte, mais aucun ne peut sympathiser avec Aurélie et apprécier son malaise lorsque son mari attaque Pomponette. En fait, notre Les systèmes d’IA commencent à casser dès qu’ils sont confrontés à des situations légèrement différentes des données sur lesquelles ils ont été formés.

Certains scientifiques pensent que ces limites seront dépassées mettre à l’échelle des systèmes d’apprentissage en profondeur avec de plus grands réseaux de neurones et de plus grands ensembles de données. Mais, soupçonne Mitchell, quelque chose de plus fondamental pourrait manquer.

En 2018, Mitchell a aidé à organiser un atelier de trois jours à l’Institut de Santa Fe intitulé «Intelligence artificielle et barrière de sens». L’atelier a exploré des concepts tels que ce qu’est le «sens» et la «compréhension», comment extraire le sens des données et de l’expérience, et comment la compréhension des situations peut aider à créer des systèmes d’IA qui peuvent généraliser leurs capacités et sont plus robustes aux changements de leur environnement.

Le résultat de l’atelier, que Mitchell partage dans son article, donne quelques indications sur la façon dont nous pouvons rendre les systèmes d’IA plus fiables à l’avenir.

L’IA manque de capacités innées

Esprit humain contre intelligence artificielle

Comme le terme «intelligence artificielle», les notions de «sens» et de «compréhension» sont difficiles à définir et à mesurer. Par conséquent, au lieu d’essayer de donner aux termes une définition formelle, les participants à l’atelier ont défini une liste de «corrélats», des capacités et des compétences étroitement liées à notre capacité à comprendre les situations. Ils ont également examiné dans quelle mesure les systèmes d’IA actuels bénéficient de ces capacités.

«La compréhension repose sur une base de connaissances fondamentales innées», écrit Mitchell. Notre compréhension de base de la physique, de la gravité, de la persistance des objets et de la causalité nous permet de tracer les relations entre les objets et leurs parties, de penser aux contrefactuels et aux scénarios de simulation et d’agir dans le monde avec cohérence. Des recherches récentes indiquent que la physique intuitive et les modèles causaux jouent un rôle clé dans notre compréhension des scènes visuelles, et les scientifiques l’ont décrit comme l’un des éléments clés de la «matière noire» de la vision par ordinateur.

Au-delà de la physique, les humains ont également «une psychologie intuitive innée ou développée tôt», écrit Mitchell, ce qui nous donne la capacité d’analyser, d’empathiser et de communiquer avec d’autres êtres sociaux. Mitchell parle également de «métacognition», la capacité «d’expliquer et de prédire nos propres processus et décisions de pensée, et de les mettre en correspondance avec les processus de pensée des autres». Ces capacités sont essentielles pour que nous puissions avoir une idée de l’étendue des informations dont nous disposons et de leur pertinence pour résoudre les problèmes. Cela nous permet également de nous mettre à la place d’Aurélie et d’imaginer ses sentiments alors qu’elle regarde Aimable s’en prendre à Pomponette.

Les réseaux de neurones ne peuvent pas extrapoler

Comparé aux humains, réseaux de neurones profonds avoir besoin beaucoup plus de données pour apprendre de nouvelles choses. En effet, bien que les réseaux de neurones soient efficaces pour interpoler entre les points de données qu’ils ont vus pendant l’entraînement, ils sont terribles dans les situations non couvertes par leurs données d’entraînement. Les humains, en revanche, sont bons pour extrapoler leurs connaissances et leur expérience à des situations inédites, car ils «construisent des représentations abstraites», écrit Mitchell. L’abstraction est un outil puissant de l’esprit humain. C’est ce qui nous permet d’extraire les significations de haut niveau de l’extrait de film que nous avons vu au début de cet article et de les comparer avec des choses que nous connaissons déjà.

Et contrairement aux réseaux de neurones, qui ont un processus d’entraînement et de déploiement différent, le cerveau humain est une machine d’apprentissage active qui continue d’ajuster ses connaissances tout au long de sa vie. «La perception, l’apprentissage et l’inférence sont des processus actifs qui se déroulent de manière dynamique au fil du temps, impliquent un retour d’information continu du contexte et des connaissances antérieures, et sont en grande partie sans surveillance», écrit Mitchell.

La communauté de l’IA et des neurosciences est divisée sur la façon dont l’esprit humain acquiert efficacement les connaissances. De nombreux scientifiques pensent que le cerveau est précâblé avec de nombreuses capacités. Ces capacités innées, que nous tenons surtout pour acquises, nous permettent de donner un sens à des situations que nous n’avons jamais vues auparavant et d’apprendre des choses avec très peu d’exemples. D’autres chercheurs affirment que, comme les réseaux de neurones artificiels, le cerveau est une grande machine d’interpolation qui apprend à combler les lacunes entre les données connues, et nous devons découvrir l’algorithme secret qui nous rend efficaces pour extraire du sens du monde.

« Je ne pense pas que quiconque connaisse la réponse à cette question », a déclaré Mitchell TechTalks dans des commentaires écrits. «Je ne suis même pas sûr que ce soit l’un ou l’autre – nous avons probablement des capacités précâblées dans le cerveau qui guident nos premiers apprentissages autosurveillés. Nous avons probablement aussi quelques «faits» pré-câblés sur le monde, comme comment identifier que quelque chose est un «objet». »

Considérations évolutionnaires

recherche scientifique sur l'ADN

Un autre domaine exploré lors de l’atelier de Santa Fe était la nécessité pour les systèmes d’IA d’avoir un corps pour découvrir le monde. « La compréhension dans les systèmes vivants ne provient pas d’un cerveau isolé mais plutôt de la combinaison inséparable du cerveau et du corps qui interagissent dans le monde », écrit Mitchell, ajoutant que les partisans de cette hypothèse croient qu’un cerveau désincarné n’atteindra pas une compréhension semblable à celle d’un humain.

« Je pense que si vous aviez demandé aux gens de l’atelier, il y aurait eu beaucoup de divergences d’opinion sur ce que signifie » incarnation «  », m’a dit Mitchell. «Mais cela inclut certainement la capacité de« sentir »activement le monde sous une forme ou une autre, l’accent étant mis sur le« activement ». Je ne pense pas que quiconque puisse dire qu’il existe un seul type d ‘« incarnation »qui est nécessaire pour le général. intelligence. »

L’évolution a également joué un rôle clé dans la formation de l’esprit de chaque être vivant pour répondre à ses besoins physiques. « Au cours des dernières décennies, des preuves ont émergé des neurosciences, de la psychologie et de la linguistique qui soutiennent le rôle essentiel du corps dans pratiquement tous les aspects de la pensée », écrit Mitchell. Par exemple, alors que les chimpanzés sont évidemment moins intelligents que les humains, ils ont une bien meilleure mémoire à court terme. De même, l’esprit des écureuils a évolué pour se souvenir de milliers de cachettes de nourriture.

Ce sont des capacités cognitives qui se sont développées sur des milliers et des millions de générations et des interactions répétées avec l’environnement. « Peut-être que la structure sous-jacente particulière du cerveau n’est pas aussi essentielle à la compréhension que le processus évolutif lui-même », observe Mitchell dans son article, ajoutant qu’une approche évolutive pourrait ouvrir la voie à l’intégration du sens et de la compréhension dans les systèmes d’IA.

À cet égard, l’un des avantages de l’intelligence artificielle est que, lorsque les environnements simulés le permettent, jouer des cycles évolutifs en avance rapide.

Comprendre n’est pas une fonction de perte ou une référence

Les algorithmes d’apprentissage automatique sont conçus pour optimiser une fonction de coût ou de perte. Par exemple, lorsqu’un réseau neuronal subit un entraînement, il ajuste ses paramètres pour réduire la différence entre ses prédictions et les étiquettes fournies par l’homme, qui représentent la vérité fondamentale. Cette approche simpliste pour résoudre les problèmes n’est pas ce que signifie la «compréhension», selon les participants à l’atelier de l’Institut Santa Fe. Il n’y a pas de métrique unique pour mesurer le niveau de compréhension.

On ne sait pas ce qui devrait être «optimisé» pour atteindre les corrélats de la compréhension ou «même si l’optimisation elle-même est le bon cadre à utiliser», écrit Mitchell dans son article.

Un autre problème qui afflige la communauté de l’IA est la focalisation étroite sur l’optimisation des algorithmes pour des benchmarks et des ensembles de données spécifiques. Au cours de la dernière décennie, de nombreux ensembles de données ont émergé qui contiennent des millions d’exemples dans des domaines tels que vision par ordinateur et traitement du langage naturel. Ces ensembles de données permettent aux chercheurs en IA de former leurs algorithmes et de tester leur précision et leurs performances. Mais si le travail acharné qui a été consacré à la conservation de ces ensembles de données est louable et a beaucoup contribué aux nombreuses avancées que nous avons constatées dans l’IA au cours des dernières années, ils ont également inauguré une culture qui crée une fausse impression de réussite.

«En raison des incitations que le domaine offre pour réussir des performances sur des indices de référence spécifiques, la recherche devient parfois trop axée sur un indice de référence particulier plutôt que sur la tâche sous-jacente plus générale», écrit Mitchell dans Magazine AI.

Lorsqu’un score plus élevé sur l’ensemble de données devient l’objectif, cela peut entraîner des résultats préjudiciables. Par exemple, en 2015, une équipe de Des chercheurs en IA de Baidu ont triché pour marquer plus haut que les autres concurrents à ImageNet, un concours annuel de vision par ordinateur. Au lieu de trouver un nouvel algorithme qui pourrait classer les images avec plus de précision, l’équipe a réussi à trouver un moyen de jouer la référence en violation des règles du concours.

Les lacunes des ensembles de données étroitement organisés sont également devenues le point culminant de recherches plus récentes. Par exemple, lors de la conférence NeurIPS 2019, une équipe de chercheurs du MIT-IBM Watson AI Lab a montré que les algorithmes formés sur l’ensemble de données ImageNet mauvais résultats dans des situations réelles où les objets se trouvent dans des positions et des conditions d’éclairage inhabituelles.

Images ImageNet vs images ObjectNet