Regardez la courte vidéo ci-dessous. Pouvez-vous répondre aux questions suivantes : Quel objet a provoqué le changement de direction de la balle ? Où la balle va-t-elle aller ensuite ? Que se passerait-il si vous enleviez la batte de la scène ?
Vous pourriez considérer ces questions comme très stupides. Mais il est intéressant de noter que les plus avancés les systèmes d’intelligence artificielle aurait du mal à y répondre. Les questions comme celles posées ci-dessus exigent la capacité de raisonner sur les objets et leurs comportements et relations dans le temps. C’est une composante intégrale de l’intelligence humaine, mais qui est restée insaisissable pour les scientifiques de l’IA pendant des décennies.
A nouvelle étude présentée à la conférence ICLR 2020 par des chercheurs d’IBM, du MIT, de Harvard et de DeepMind mettent en évidence les lacunes des systèmes actuels d’IA pour traiter la causalité dans les vidéos. Dans leur article, les chercheurs présentent CLEVRER, un nouvel ensemble de données et une nouvelle référence pour évaluer les capacités des algorithmes d’IA à raisonner sur des séquences vidéo, et le raisonnement dynamique neuro-symbolique (NS-DR), un système d’IA hybride qui marque une amélioration substantielle du raisonnement causal dans les environnements contrôlés.
Lisez : [Microsoft’s new AI can generate smart to-do lists from your emails]
Pourquoi l’intelligence artificielle ne peut pas raisonner sur les vidéos
Pour nous, humains, la détection et le raisonnement sur les objets d’une scène vont presque de pair. Mais pour la technologie actuelle de l’intelligence artificielle, ce sont deux disciplines fondamentalement différentes.
Au cours des dernières années, apprentissage approfondi a apporté de grandes avancées dans le domaine de l’intelligence artificielle. Les réseaux neuronaux profonds, principale composante des algorithmes d’apprentissage profond, peuvent trouver des modèles complexes dans de grands ensembles de données. Cela leur permet d’effectuer des tâches qui étaient auparavant interdites ou très difficiles pour les logiciels informatiques, comme la détection d’objets dans les images ou la reconnaissance de la parole.
Il est étonnant de voir ce que la reconnaissance des formes peut accomplir à elle seule. Les réseaux de neurones jouent un rôle important dans de nombreuses applications que nous utilisons tous les jours, de la recherche d’objets et de scènes dans Google Images à détecter et bloquer les contenus inappropriés sur les médias sociaux. Les réseaux neuronaux ont également fait quelques percées dans la génération de descriptions de vidéos et d’images.
Mais il y a aussi des limites très claires à ce que vous pouvez faire pour pousser la reconnaissance des formes. Bien qu’elle soit une partie importante de la vision humaine, la reconnaissance des formes n’est qu’une de ses nombreuses composantes. Lorsque notre cerveau analyse la vidéo de baseball au début de cet article, nos connaissances sur le mouvement, la permanence des objets, la solidité et le mouvement entrent en jeu. Sur la base de ces connaissances, nous pouvons prédire ce qui se passera ensuite (où la balle ira) et les situations contrefactuelles (et si la batte n’a pas frappé la balle). C’est pourquoi même une personne qui n’a jamais vu un match de baseball auparavant aura beaucoup à dire sur cette vidéo.
Un algorithme d’apprentissage profond, cependant, détecte les objets de la scène parce qu’ils sont statistiquement similaires à des milliers d’autres objets qu’il a vus pendant la formation. Il ne connaît rien de la matière, de la gravité, du mouvement et de l’impact, certains des concepts qui nous permettent de raisonner sur la scène.
Le raisonnement visuel est un domaine de recherche actif en intelligence artificielle. Les chercheurs ont développé plusieurs ensembles de données qui évaluent la capacité des systèmes d’IA à raisonner sur des segments vidéo. La question de savoir si l’apprentissage profond peut à lui seul résoudre le problème reste ouverte.
Certains scientifiques de l’IA pensent que Avec suffisamment de données et de puissance de calcul, les modèles d’apprentissage approfondi pourront éventuellement surmonter certains de ces défis. Mais jusqu’à présent, les progrès dans les domaines qui requièrent du bon sens et du raisonnement ont été faibles et progressifs.
L’ensemble de données CLEVRER
Le nouvel ensemble de données présenté à la conférence ICLR 2020 est appelé « CoLlision Events for Video REpresentation and Reasoning », ou CLEVRER. Il s’inspire de CLEVR, un ensemble de données visuelles de type questions-réponses développé à l’université de Stanford en 2017. CLEVR est un ensemble de problèmes qui présentent des images fixes d’objets solides. L’agent AI doit être capable d’analyser la scène et de répondre à des questions à choix multiples sur le nombre d’objets, leurs attributs et leurs relations spatiales.
CLEVRER est constitué de vidéos d’objets solides qui se déplacent et entrent en collision les uns avec les autres. Les agents d’IA seront testés dans leur capacité à répondre à des questions descriptives, explicatives, prédictives et contrefactuelles sur les scènes. Par exemple, dans la scène ci-dessous, l’IA se verra poser des questions telles que les suivantes
- Descriptif : Quelle est la matière du dernier objet à entrer en collision avec le cylindre ?
- Explication : La collision entre le cylindre en caoutchouc et la sphère rouge en caoutchouc provoque-t-elle la collision entre le cylindre en caoutchouc et le cylindre métallique ?
- Prédictif : La sphère métallique et le cylindre gris vont-ils entrer en collision ?
- Contrefactuel : la sphère de caoutchouc rouge et le cylindre gris vont-ils entrer en collision si nous retirons le cylindre cyan de la scène ?
Comme les questions posées au sujet de la vidéo au début de cet article, ces questions peuvent vous sembler triviales. Mais ce sont des tâches compliquées à accomplir avec les mélanges actuels d’IA car elles nécessitent une compréhension causale de la scène.
Comme le résument les auteurs de l’article, la résolution des problèmes CLEVRER nécessite trois éléments clés : « la reconnaissance des objets et des événements dans les vidéos ; la modélisation de la dynamique et des relations causales entre les objets et les événements ; et la compréhension de la logique symbolique derrière les questions ».
« CLEVRER » est un premier ensemble de données de raisonnement visuel qui est conçu pour le raisonnement occasionnel dans les vidéos. Les précédents ensembles de données de raisonnement visuel se concentrent principalement sur des questions factuelles, telles que quoi, quand, où et est/sont. Mais la capacité de raisonnement la plus fondamentale est de comprendre le « pourquoi » » », a déclaré Chuang Gan, chercheur au laboratoire d’IA Watson du MIT-IBM et co-auteur de l’article de CLEVRER TechTalks.
Un environnement contrôlé
CLEVRER est « un environnement synthétique entièrement contrôlé », selon les auteurs de l’article. Le type et le matériau des objets sont peu nombreux, tous les problèmes sont posés sur une surface plane, et le vocabulaire utilisé dans les questions est limité. Ce petit détail est très important car les systèmes d’IA actuels sont très mauvais pour gérer des environnements ouverts où la combinaison d’événements pouvant se produire est illimitée.
L’environnement contrôlé a permis aux développeurs de CLEVRER de fournir des exemples richement annotés pour évaluer la performance des modèles d’IA. Il permet aux chercheurs en IA de concentrer le développement de leurs modèles sur des tâches de raisonnement complexes tout en éliminant d’autres obstacles tels que la reconnaissance d’images et la compréhension du langage.
Mais cela implique également que si un modèle d’IA obtient un score élevé sur CLEVRER, cela ne signifie pas nécessairement qu’il sera capable de gérer le désordre du monde réel où tout peut arriver. Le modèle peut cependant fonctionner dans d’autres environnements limités.
« L’utilisation du raisonnement temporel et causal dans les vidéos pourrait jouer un rôle important dans les applications de robotique et de conduite automatique », déclare Gan. « S’il y avait un accident de la route, par exemple, le modèle CLEVRER pourrait être utilisé pour analyser les vidéos de surveillance et découvrir les causes de l’accident. Dans les applications robotiques, il pourrait également être utile que le robot puisse suivre une commande en langage naturel et agir en conséquence ».
Le modèle d’IA de raisonnement dynamique neuro-symbolique
Les auteurs de l’article ont testé CLEVRER sur des modèles d’apprentissage profond de base tels que les réseaux neuronaux convolutifs (CNN) combiné avec des perceptrons multicouches (MLP) et des réseaux de mémoire longue et courte durée (LSTM). Ils les ont également testés sur des variantes des modèles d’apprentissage profond avancés TVQA, IEP, TbDNet et MAC, chacun modifié pour mieux s’adapter au raisonnement visuel.
L’apprentissage profond de base a donné des résultats modestes sur les défis descriptifs et médiocres sur le reste. Certains des modèles avancés ont obtenu de bons résultats sur les défis descriptifs. Mais pour le reste des défis, la précision a considérablement baissé. Les modèles d’IA basés sur les réseaux neuronaux purs manquent de compréhension des relations causales et temporelles entre les objets et leur comportement. Ils manquent également d’un modèle du monde qui leur permette de prévoir ce qui se passe ensuite et de comprendre comment fonctionnent les scénarios contrefactuels alternatifs.
Comme solution, les chercheurs ont introduit le modèle de raisonnement dynamique neuro-symbolique, une combinaison de réseaux de neurones et de l’intelligence artificielle symbolique. L’intelligence artificielle symbolique, également connue sous le nom d’intelligence artificielle basée sur des règles, a été abandonnée avec l’essor de l’apprentissage profond. Contrairement aux réseaux neuronaux, les systèmes d’IA symbolique sont très mauvais pour traiter les informations non structurées telles que les données visuelles et les textes écrits. Mais d’un autre côté, les systèmes basés sur des règles sont très bons pour le raisonnement symbolique et la représentation des connaissances, un domaine qui a été un point sensible dans l’histoire des algorithmes d’apprentissage automatique.
La NS-DR met à profit à la fois les réseaux de neurones et les systèmes de raisonnement symbolique :
- Un réseau neuronal convolutif extrait les objets des images.
- Un LSTM traite les questions et les convertit en commandes de programme.
- Un réseau de propagation apprend la dynamique physique à partir des données de l’objet extraites par le CNN et prédit le comportement futur de l’objet.
- Enfin, un programme Python rassemble toutes les informations structurées obtenues à partir des réseaux de neurones pour compiler la réponse à la question.
La performance de la NS-DR est considérablement plus élevée que les modèles d’apprentissage profond purs sur les défis explicatifs, prédictifs et contrefactuels. Toutefois, la référence contrefactuelle est toujours d’une précision modeste de 42 %, ce qui témoigne des défis que pose le développement d’une IA capable de comprendre le monde comme nous le faisons. Il s’agit toutefois d’un gain important par rapport aux 25 % de précision du modèle d’apprentissage approfondi de base le plus performant.
Un autre avantage important de la NS-DR est qu’elle nécessite beaucoup moins de données dans la phase de formation.
Les résultats montrent que l’intégration de réseaux neuronaux et de programmes symboliques dans le même modèle d’IA peut combiner leurs forces et surmonter leurs faiblesses. « La représentation symbolique fournit un puissant terrain d’entente pour la vision, le langage, la dynamique et la causalité », notent les auteurs, ajoutant que les programmes symboliques permettent au modèle de « capturer explicitement la composition derrière la structure causale de la vidéo et la logique de la question ».
Les avantages de la NS-DR s’accompagnent de certaines réserves. Les données utilisées pour entraîner le modèle nécessitent des annotations supplémentaires, qui peuvent être trop gourmandes en énergie et trop coûteuses dans les applications du monde réel.
Un tremplin vers des systèmes d’IA plus généralisables
Publié le 16 mai 2020 – 14:00 UTC