Performance au niveau humain. Précision au niveau humain. Ce sont des termes que vous entendez beaucoup de la part des entreprises qui développent des systèmes d’intelligence artificielle, qu’il s’agisse de reconnaissance faciale, de détection d’objets ou de réponses aux questions. Et à leur honneur, ces dernières années ont vu de nombreux excellents produits alimentés par des algorithmes d’IA, principalement grâce aux progrès de l’apprentissage automatique et de l’apprentissage en profondeur.
Mais bon nombre de ces comparaisons ne prennent en compte que le résultat final du test des algorithmes d’apprentissage en profondeur sur des ensembles de données limités. Cette approche peut créer de fausses attentes à l’égard des systèmes d’IA et donner des résultats dangereux lorsqu’ils se voient confier des tâches critiques.
Dans une étude récente, un groupe de chercheurs de diverses organisations et universités allemandes a mis en évidence les défis de l’évaluation des performances de l’apprentissage profond dans le traitement des données visuelles. Dans leur article, intitulé «La difficulté notoire de comparer la perception humaine et la perception de la machine», les chercheurs mettent en évidence les problèmes des méthodes actuelles qui comparent les réseaux de neurones profonds et le système de vision humain.
Dans leurs recherches, le scientifique a mené une série d’expériences qui creusent sous la surface des résultats de l’apprentissage profond et les comparent au fonctionnement du système visuel humain. Leurs résultats rappellent que nous devons être prudents lorsque nous comparons l’IA aux humains, même si elle montre des performances égales ou meilleures sur la même tâche.
[Read: An introduction to one-shot learning]
La complexité de la vision humaine et par ordinateur
Dans la quête apparemment sans fin pour reconstruire la perception humaine, le domaine qui est devenu connu sous le nom de vision par ordinateur, l’apprentissage en profondeur a jusqu’à présent donné les résultats les plus favorables. Les réseaux de neurones convolutifs (CNN), une architecture souvent utilisée dans les algorithmes d’apprentissage en profondeur de la vision par ordinateur, accomplissent des tâches extrêmement difficiles avec les logiciels traditionnels.
Cependant, comparer les réseaux de neurones à la perception humaine reste un défi. Et c’est en partie parce que nous avons encore beaucoup à apprendre sur le système de vision humain et le cerveau humain en général. Le fonctionnement complexe des systèmes d’apprentissage profond aggrave également le problème. Les réseaux de neurones profonds fonctionnent de manière très compliquée qui confondent souvent leurs propres créateurs.
Ces dernières années, un corpus de recherche a tenté d’évaluer le fonctionnement interne des réseaux de neurones et leur robustesse à gérer des situations du monde réel. «Malgré une multitude d’études, comparer la perception humaine et machine n’est pas simple», écrivent les chercheurs allemands dans leur article.
Dans leur étude, les scientifiques se sont concentrés sur trois domaines pour évaluer comment les humains et les réseaux de neurones profonds traitent les données visuelles.
Comment les réseaux de neurones perçoivent-ils les contours?
Le premier test concerne la détection des contours. Dans cette expérience, les humains et les participants à l’IA doivent dire si une image contient un contour fermé ou non. L’objectif ici est de comprendre si les algorithmes d’apprentissage en profondeur peuvent apprendre le concept de formes fermées et ouvertes, et s’ils peuvent les détecter dans diverses conditions.
«Pour les humains, un contour fermé flanqué de nombreux contours ouverts se distingue perceptivement. En revanche, la détection de contours fermés pourrait être difficile pour les DNN car ils nécessiteraient vraisemblablement une intégration de contour à longue portée », écrivent les chercheurs.
Pour l’expérience, les scientifiques ont utilisé le ResNet-50, un réseau neuronal convolutif populaire développé par des chercheurs en IA de Microsoft. Ils ont utilisé l’apprentissage par transfert pour affiner le modèle d’IA sur 14 000 images de contours fermés et ouverts.
Ils ont ensuite testé l’IA sur divers exemples qui ressemblaient aux données d’entraînement et se sont progressivement déplacés dans d’autres directions. Les premiers résultats ont montré qu’un réseau de neurones bien formé semble saisir l’idée d’un contour fermé. Même si le réseau a été formé sur un jeu de données qui ne contenait que des formes avec des lignes droites, il pouvait également bien fonctionner sur des lignes courbes.
«Ces résultats suggèrent que notre modèle a, en fait, appris le concept de contours ouverts et fermés et qu’il effectue un processus similaire à celui des humains», écrivent les scientifiques.
Cependant, une enquête plus approfondie a montré que d’autres changements qui n’ont pas affecté les performances humaines ont dégradé la précision des résultats du modèle d’IA. Par exemple, la modification de la couleur et de la largeur des lignes a entraîné une baisse soudaine de la précision du modèle d’apprentissage en profondeur. Le modèle semblait également avoir du mal à détecter les formes lorsqu’elles devenaient plus grandes qu’une certaine taille.
Le réseau de neurones était également très sensible aux perturbations antagonistes, des changements soigneusement élaborés qui sont imperceptibles à l’œil humain mais qui perturbent le comportement des systèmes d’apprentissage automatique.
Pour approfondir le processus de prise de décision de l’IA, les scientifiques ont utilisé un réseau Bag-of-Feature, une technique qui tente de localiser les bits de données qui contribuent à la décision d’un modèle d’apprentissage en profondeur. L’analyse a prouvé qu ‘«il existe des caractéristiques locales telles qu’un point final en conjonction avec un bord court qui peuvent souvent donner le bon label de classe», ont constaté les chercheurs.
L’apprentissage automatique peut-il raisonner sur les images?
La deuxième expérience a testé les capacités des algorithmes d’apprentissage en profondeur dans le raisonnement visuel abstrait. Les données utilisées pour l’expérience sont basées sur le test de raisonnement visuel synthétique (SVRT), dans lequel l’IA doit répondre à des questions qui nécessitent une compréhension des relations entre les différentes formes de l’image. Les tests comprennent des tâches identiques (par exemple, deux formes dans une image sont-elles identiques?) Et des tâches spatiales (par exemple, la forme la plus petite est-elle au centre de la forme la plus grande?). Un observateur humain résoudrait facilement ces problèmes.
Pour leur expérience, les chercheurs ont utilisé le ResNet-50 et ont testé ses performances avec différentes tailles de jeux de données d’entraînement. Les résultats montrent qu’un modèle pré-entraîné affiné sur 28 000 échantillons fonctionne bien à la fois sur des tâches identiques et spatiales. (Des expériences précédentes ont entraîné un très petit réseau de neurones sur un million d’images.) Les performances de l’IA ont chuté à mesure que les chercheurs réduisaient le nombre d’exemples d’entraînement, mais la dégradation dans des tâches identiques était plus rapide.
«Les tâches identiques nécessitent plus d’échantillons de formation que les tâches de raisonnement spatial», écrivent les chercheurs, ajoutant que «cela ne peut pas être considéré comme une preuve de différences systématiques entre les réseaux de neurones à réaction et le système visuel humain.»
Les chercheurs notent que le système visuel humain est naturellement pré-entraîné sur de grandes quantités de tâches de raisonnement visuel abstrait. Cela rend injuste de tester le modèle d’apprentissage en profondeur sur un régime à faible volume de données, et il est presque impossible de tirer des conclusions solides sur les différences dans le traitement de l’information interne des humains et de l’IA.
«Il se pourrait très bien que le système visuel humain formé à partir de zéro sur les deux types de tâches présente une différence d’efficacité similaire à celle d’un ResNet-50», écrivent les chercheurs.
Mesurer l’écart de reconnaissance de l’apprentissage profond
Le manque de reconnaissance est l’un des tests les plus intéressants des systèmes visuels. Considérez l’image suivante. Pouvez-vous dire ce que c’est sans faire défiler plus bas?
Voici la vue agrandie de la même image. Il ne fait aucun doute que c’est un chat. Si je vous montrais en gros plan une autre partie de l’image (peut-être l’oreille), vous auriez peut-être eu une plus grande chance de prédire ce qu’il y avait dans l’image. Nous, les humains, avons besoin de voir un certain nombre de formes et de motifs globaux pour pouvoir reconnaître un objet dans une image. Plus vous effectuez un zoom avant, plus vous supprimez d’éléments, et plus il devient difficile de distinguer le contenu de l’image.
Les systèmes d’apprentissage en profondeur fonctionnent également sur des fonctionnalités, mais ils fonctionnent de manière plus subtile. Les réseaux de neurones trouvent parfois des caractéristiques minuscules qui sont imperceptibles à l’œil humain mais qui restent détectables même lorsque vous zoomez de très près.
Dans leur dernière expérience, les chercheurs ont tenté de mesurer l’écart de reconnaissance des réseaux de neurones profonds en zoomant progressivement sur les images jusqu’à ce que la précision du modèle d’IA commence à se dégrader considérablement.
Des expériences précédentes montrent une grande différence entre le fossé de reconnaissance d’image chez l’homme et les réseaux de neurones profonds. Mais dans leur article, les chercheurs soulignent que la plupart des tests précédents sur les lacunes de reconnaissance des réseaux neuronaux sont basés sur des correctifs d’image sélectionnés par l’homme. Ces patchs favorisent le système de vision humaine.
Lorsqu’ils ont testé leurs modèles d’apprentissage en profondeur sur des correctifs «sélectionnés par machine», les chercheurs ont obtenu des résultats qui montraient une lacune similaire chez les humains et l’IA.
«Ces résultats mettent en évidence l’importance de tester les humains et les machines exactement sur le même pied et d’éviter un biais humain dans la conception de l’expérience», écrivent les chercheurs. «Toutes les conditions, instructions et procédures doivent être aussi proches que possible entre les humains et les machines afin de garantir que toutes les différences observées sont dues à des stratégies de décision intrinsèquement différentes plutôt qu’à des différences dans la procédure de test.»
Combler le fossé entre l’IA et l’intelligence humaine
À mesure que nos systèmes d’IA deviennent plus complexes, nous devrons développer des méthodes plus complexes pour les tester. Des travaux antérieurs dans le domaine montrent que bon nombre des repères populaires utilisés pour mesurer la précision des systèmes de vision par ordinateur sont trompeurs. Les travaux des chercheurs allemands sont l’un des nombreux efforts qui tentent de mesurer l’intelligence artificielle et de mieux quantifier les différences entre l’IA et l’intelligence humaine. Et ils tirent des conclusions qui peuvent fournir des orientations pour les futures recherches sur l’IA.
«Le défi majeur dans les études de comparaison entre les humains et les machines semble être le fort biais d’interprétation humaine interne», écrivent les chercheurs. «Des outils d’analyse appropriés et des vérifications croisées approfondies – telles que les variations de l’architecture du réseau, l’alignement des procédures expérimentales, les tests de généralisation, les exemples contradictoires et les tests avec des réseaux contraints – aident à rationaliser l’interprétation des résultats et à relativiser ce biais interne. Dans l’ensemble, il faut veiller à ne pas imposer notre biais systématique humain lors de la comparaison de la perception humaine et de la machine.
Cet article a été initialement publié par Ben Dickson sur TechTalks, une publication qui examine les tendances de la technologie, comment elles affectent notre façon de vivre et de faire des affaires et les problèmes qu’elles résolvent. Mais nous discutons également du côté pervers de la technologie, des implications plus sombres des nouvelles technologies et de ce que nous devons rechercher. Vous pouvez lire l’article original ici.
Publié le 22 août 2020 – 15:00 UTC