La « matière noire » des données visuelles peut aider l’IA à comprendre les images comme les humains

0
81

Qu’est-ce qui fait que nous, les humains, sommes si doués pour donner un sens aux données visuelles ? C’est une question qui a préoccupé l’intelligence artificielle et vision par ordinateur scientifiques depuis des décennies. Les efforts déployés pour reproduire les capacités de la vision humaine ont jusqu’à présent donné des résultats louables mais qui laissent encore beaucoup à désirer.

Nos algorithmes actuels d’intelligence artificielle peuvent détecter les objets dans les images avec une précision remarquable, mais seulement après avoir vu de nombreux (des milliers ou peut-être des millions) exemples et seulement si les nouvelles images ne sont pas trop différentes de ce qu’elles ont vu auparavant.

Il existe toute une série d’efforts visant à résoudre le la superficialité et la fragilité de l’apprentissage profond, principal algorithme d’IA utilisé aujourd’hui en vision par ordinateur. Mais parfois, pour trouver la bonne solution, il faut poser les bonnes questions et formuler le problème de la bonne manière. Et à l’heure actuelle, il y a beaucoup de confusion autour de ce qui doit vraiment être fait pour réparer les algorithmes de vision par ordinateur.

Dans un article publié le mois dernier, des scientifiques du Massachusetts Institute of Technology et de l’Université de Californie, Los Angeles, affirment que la clé pour fabriquer des systèmes d’IA capables de raisonner sur des données visuelles comme les humains est de s’attaquer à la « matière noire » de la vision par ordinateur, c’est-à-dire aux choses qui ne sont pas visibles en pixels.

Intitulé « Dark, Beyond Deep : A Paradigm Shift to Cognitive AI with Humanlike Common Sense », le document examine cinq éléments clés qui manquent aux approches actuelles de la vision par ordinateur. L’ajout de ces cinq éléments nous permettra de passer de « grandes données pour de petites tâches » à l’IA à « petites données pour de grandes tâches », affirment les auteurs.

L’IA d’aujourd’hui : de grandes données pour de petites tâches

Les progrès récents en matière d’apprentissage approfondi sont essentiellement basés sur un paradigme « de grandes données pour de petites tâches », dans lequel des quantités massives de données sont utilisées pour former un classificateur pour une seule tâche étroite », écrivent les chercheurs en IA du MIT et de l’UCLA.

Les progrès les plus récents en matière d’intelligence artificielle reposent sur des réseaux neuronaux profonds, des algorithmes d’apprentissage machine qui imitent grossièrement les capacités de correspondance de modèles des cerveaux humains et animaux. Les réseaux neuronaux profonds sont comme des couches de fonctions mathématiques complexes empilées les unes sur les autres. Pour remplir leurs fonctions, les DNN passent par un processus de « formation », au cours duquel ils reçoivent de nombreux exemples (par exemple des images) et leur résultat correspondant (par exemple l’objet que les images contiennent). Le DNN ajuste les poids de ses fonctions pour représenter les modèles communs trouvés dans les objets de classes communes.

deep neural networks

En général, plus un réseau neuronal profond possède de couches et plus il est formé sur des données de qualité, mieux il peut extraire et détecter des modèles communs dans les données. Par exemple, pour former un réseau neuronal capable de détecter des chats avec précision, il faut lui fournir de nombreuses images différentes de chats, sous différents angles, sur différents arrière-plans et dans différentes conditions d’éclairage. Cela fait beaucoup d’images de chats.

[Read: Study: Artificial brains need rest too]

Bien que les DNN se soient révélées très efficaces et constituent un élément clé de nombreuses les applications de vision par ordinateur Aujourd’hui, ils ne voient pas le monde comme les humains.

En fait, les réseaux neuronaux profonds existent depuis des décennies. Leur popularité s’est accrue ces dernières années en raison de la disponibilité d’énormes ensembles de données (par exemple ImageNet avec 14 millions d’images étiquetées) et des processeurs plus puissants. Cela a permis aux scientifiques de l’IA de créer et de former de plus grands réseaux de neurones dans des délais très courts. Mais au fond, les réseaux de neurones sont toujours des moteurs statistiques qui recherchent des modèles visibles dans les pixels. Ce n’est qu’une partie de ce que fait le système de vision humain.

« Les capacités d’inférence et de raisonnement des systèmes de vision par ordinateur actuels sont étroites et hautement spécialisées, nécessitent de grands ensembles de données d’entraînement étiquetées conçues pour des tâches spéciales, et manquent d’une compréhension générale des faits communs (faits qui sont évidents pour l’homme moyen) », écrivent les auteurs de « Dark, Beyond Deep ».

Les scientifiques soulignent également que la vision humaine n’est pas la mémorisation de motifs de pixels. Nous utilisons un seul système de vision pour effectuer des milliers de tâches, par opposition aux systèmes d’IA qui sont conçus pour un seul modèle, une seule tâche.

Comment pouvons-nous parvenir à une vision informatique à l’échelle humaine ? Certains chercheurs pensent qu’en continuant à investir dans des modèles d’apprentissage profond plus larges, nous pourrons éventuellement développer des systèmes d’IA qui correspondent à l’efficacité de la vision humaine.

Les auteurs de « Dark, Beyond Deep » soulignent toutefois que les progrès de la vision par ordinateur ne sont pas liés à une meilleure reconnaissance des choses visibles dans les images. Nous avons plutôt besoin de systèmes d’intelligence artificielle capables de comprendre et de raisonner sur la « matière noire » des données visuelles, les choses qui ne sont pas présentes dans les images et les vidéos.

« En raisonnant sur les facteurs inobservables au-delà des pixels visibles, nous pourrions nous rapprocher du bon sens humain, en utilisant des données limitées pour réaliser des généralisations à travers une variété de tâches », écrivent les scientifiques du MIT et de l’UCLA.

Ces composantes sombres sont la fonctionnalité, la physique intuitive, l’intention, la causalité et l’utilité (FPICU). La résolution du problème du FPICU nous permettra de passer de systèmes d’IA « grandes données pour petites tâches » qui ne peuvent répondre qu’à des questions « quoi et où » à des systèmes d’IA « petites données pour grandes tâches » qui peuvent également discuter des questions « pourquoi, comment et si » des images et des vidéos.

Trou noir dans l'espacePool table

Que faut-il changer dans les systèmes d’IA actuels ? « Pour construire des connaissances de sens commun à l’image de l’homme, un modèle de calcul pour la physique intuitive qui peut soutenir l’exécution de toute tâche qui implique la physique, et non pas seulement une tâche étroite, doit être explicitement représenté dans la compréhension environnementale d’un agent », écrivent les auteurs.

Cela va à l’encontre du paradigme actuel de l’IA de bout en bout, où les réseaux neuronaux reçoivent des séquences vidéo ou des images et leurs descriptions correspondantes et sont censés intégrer ces propriétés physiques dans leurs poids.

Des travaux récents montrent que Les systèmes d’IA qui ont incorporé des moteurs physiques sont bien plus aptes à raisonner sur les relations entre les objets que les systèmes basés sur les réseaux neuronaux purs.

Causalité

La causalité est l’ultime la pièce manquante des algorithmes d’intelligence artificielle actuels et la fondation de toutes les composantes de la FPICU. Le chant du coq provoque-t-il le lever du soleil ou le lever du soleil incite-t-il le coq à chanter ? L’augmentation de la température fait-elle augmenter le taux de mercure dans un thermomètre ? Est-ce que le fait d’actionner l’interrupteur allume les lumières ou vice versa ?

Nous pouvons voir les choses se produire en même temps et faire des suppositions sur le fait que l’une cause l’autre ou qu’il n’y a pas de relations de cause à effet entre elles. Les algorithmes d’apprentissage automatique, en revanche, peuvent suivre les corrélations entre différentes variables mais ne peuvent pas raisonner sur la causalité. En effet, les événements causaux ne sont pas toujours visibles et ils nécessitent une compréhension du monde.

Interrupteur

La causalité nous permet de raisonner non seulement sur ce qui se passe dans une scène mais aussi sur des contrefactuels, des scénarios « et si » qui n’ont pas eu lieu. « Les observateurs recrutent leur capacité de raisonnement contrefactuel pour interpréter les événements visuels. En d’autres termes, l’interprétation n’est pas seulement basée sur ce qui est observé, mais aussi sur ce qui se serait produit mais ne s’est pas produit », écrivent les chercheurs en IA.

Pourquoi est-ce important ? Jusqu’à présent, le succès des systèmes d’IA a été largement lié à la fourniture de données de plus en plus nombreuses pour compenser le manque de raisonnement causal. C’est particulièrement vrai dans les l’apprentissage par renforcement, dans lequel des agents d’IA sont libérés pour explorer des environnements par essais et erreurs. Des géants de la technologie tels que Google utilisent leur puissance de calcul et leurs ressources financières illimitées pour faire passer leurs systèmes d’IA par des millions de scénarios dans l’espoir de saisir toutes les combinaisons possibles. Cette approche a été largement couronnée de succès dans des domaines tels que les jeux de société et les jeux vidéo.

Cependant, comme le notent les auteurs de « Dark, Beyond Deep », les programmes d’apprentissage par renforcement ne saisissent pas les relations de cause à effet, ce qui limite leur capacité à transférer leur fonctionnalité à d’autres problèmes. Par exemple, un Une IA capable de jouer à StarCraft 2 au niveau du championnat sera abasourdi si on lui donne Warcraft 3 ou une version antérieure de StarCraft. Il ne pourra même pas généraliser ses compétences au-delà des cartes et des courses sur lesquelles il a été entraîné, à moins de passer par des milliers d’années de jeu supplémentaire dans les nouveaux paramètres.

« Une approche pour résoudre ce défi est d’apprendre un codage causal de l’environnement, car la connaissance causale code intrinsèquement une représentation transférable du monde », écrivent les auteurs. « En supposant que la dynamique du monde soit constante, les relations causales resteront vraies quels que soient les changements d’observation de l’environnement ».

Fonctionnalité

Si vous voulez vous asseoir et que vous ne trouvez pas de chaise, vous chercherez une surface plane et solide qui puisse supporter votre poids. Si vous voulez planter un clou dans un mur et que vous ne trouvez pas de marteau, vous chercherez un objet solide et lourd qui a une partie saisissable. Si vous voulez transporter de l’eau, vous chercherez un récipient. Si vous voulez escalader un mur, vous chercherez des objets ou des saillies qui peuvent servir de poignées.

Notre système de vision est largement axé sur les tâches. Nous réfléchissons à notre environnement et aux objets que nous voyons en fonction des fonctions qu’ils peuvent remplir. Nous pouvons classer les objets en fonction de leurs fonctionnalités.

Une fois de plus, cela ne figure pas dans l’AI d’aujourd’hui. Les algorithmes d’apprentissage profond peuvent trouver une cohérence spatiale dans les images d’un même objet. Mais que se passe-t-il lorsqu’ils doivent traiter une classe d’objets très variés ?

weird chairs