Ce système d’IA hybride peut comprendre la causalité dans des environnements contrôlés

0
104


Regardez la courte vidéo ci-dessous. Pouvez-vous répondre aux questions suivantes : Quel objet a provoqué le changement de direction de la balle ? Où la balle va-t-elle aller ensuite ? Que se passerait-il si vous enleviez la batte de la scène ?

batte de baseball frappant la balle

comment créer une société offshore?

Vous pourriez considérer ces questions comme très stupides. Mais il est intéressant de noter que les plus avancés les systèmes d’intelligence artificielle aurait du mal à y répondre. Les questions comme celles posées ci-dessus exigent la capacité de raisonner sur les objets et leurs comportements et relations dans le temps. C’est une composante intégrale de l’intelligence humaine, mais qui est restée insaisissable pour les scientifiques de l’IA pendant des décennies.

A nouvelle étude présentée à la conférence ICLR 2020 par des chercheurs d’IBM, du MIT, de Harvard et de DeepMind mettent en évidence les lacunes des systèmes actuels d’IA pour traiter la causalité dans les vidéos. Dans leur article, les chercheurs présentent CLEVRER, un nouvel ensemble de données et une nouvelle référence pour évaluer les capacités des algorithmes d’IA à raisonner sur des séquences vidéo, et le raisonnement dynamique neuro-symbolique (NS-DR), un système d’IA hybride qui marque une amélioration substantielle du raisonnement causal dans les environnements contrôlés.

Lisez : [Microsoft’s new AI can generate smart to-do lists from your emails]

Pourquoi l’intelligence artificielle ne peut pas raisonner sur les vidéos

Pour nous, humains, la détection et le raisonnement sur les objets d’une scène vont presque de pair. Mais pour la technologie actuelle de l’intelligence artificielle, ce sont deux disciplines fondamentalement différentes.

Au cours des dernières années, apprentissage approfondi a apporté de grandes avancées dans le domaine de l’intelligence artificielle. Les réseaux neuronaux profonds, principale composante des algorithmes d’apprentissage profond, peuvent trouver des modèles complexes dans de grands ensembles de données. Cela leur permet d’effectuer des tâches qui étaient auparavant interdites ou très difficiles pour les logiciels informatiques, comme la détection d’objets dans les images ou la reconnaissance de la parole.

Il est étonnant de voir ce que la reconnaissance des formes peut accomplir à elle seule. Les réseaux de neurones jouent un rôle important dans de nombreuses applications que nous utilisons tous les jours, de la recherche d’objets et de scènes dans Google Images à détecter et bloquer les contenus inappropriés sur les médias sociaux. Les réseaux neuronaux ont également fait quelques percées dans la génération de descriptions de vidéos et d’images.

Mais il y a aussi des limites très claires à ce que vous pouvez faire pour pousser la reconnaissance des formes. Bien qu’elle soit une partie importante de la vision humaine, la reconnaissance des formes n’est qu’une de ses nombreuses composantes. Lorsque notre cerveau analyse la vidéo de baseball au début de cet article, nos connaissances sur le mouvement, la permanence des objets, la solidité et le mouvement entrent en jeu. Sur la base de ces connaissances, nous pouvons prédire ce qui se passera ensuite (où la balle ira) et les situations contrefactuelles (et si la batte n’a pas frappé la balle). C’est pourquoi même une personne qui n’a jamais vu un match de baseball auparavant aura beaucoup à dire sur cette vidéo.

Un algorithme d’apprentissage profond, cependant, détecte les objets de la scène parce qu’ils sont statistiquement similaires à des milliers d’autres objets qu’il a vus pendant la formation. Il ne connaît rien de la matière, de la gravité, du mouvement et de l’impact, certains des concepts qui nous permettent de raisonner sur la scène.

Le raisonnement visuel est un domaine de recherche actif en intelligence artificielle. Les chercheurs ont développé plusieurs ensembles de données qui évaluent la capacité des systèmes d’IA à raisonner sur des segments vidéo. La question de savoir si l’apprentissage profond peut à lui seul résoudre le problème reste ouverte.

Certains scientifiques de l’IA pensent que Avec suffisamment de données et de puissance de calcul, les modèles d’apprentissage approfondi pourront éventuellement surmonter certains de ces défis. Mais jusqu’à présent, les progrès dans les domaines qui requièrent du bon sens et du raisonnement ont été faibles et progressifs.

L’ensemble de données CLEVRER

Le nouvel ensemble de données présenté à la conférence ICLR 2020 est appelé « CoLlision Events for Video REpresentation and Reasoning », ou CLEVRER. Il s’inspire de CLEVR, un ensemble de données visuelles de type questions-réponses développé à l’université de Stanford en 2017. CLEVR est un ensemble de problèmes qui présentent des images fixes d’objets solides. L’agent AI doit être capable d’analyser la scène et de répondre à des questions à choix multiples sur le nombre d’objets, leurs attributs et leurs relations spatiales.

Exemple CLEVR