5 préjugés cognitifs en science des données – et comment les éviter

0
111


Récemment, je lisais le livre de Rolf Dobell L’art de penser clairementqui m’a fait réfléchir aux biais cognitifs d’une manière que je n’avais jamais eue auparavant. J’ai réalisé à quel point certains préjugés cognitifs sont profondément ancrés. En fait, nous ne nous rendons souvent pas compte, même consciemment, du moment où notre pensée est affectée par l’un d’eux. Pour les spécialistes des données, ces biais peuvent vraiment changer la façon dont nous travaillons avec les données et prenons nos décisions au quotidien, et généralement pas pour le mieux.

La science des données est, malgré l’objectivité apparente de tous les faits sur lesquels nous travaillons, étonnamment subjective dans ses processus. En tant que scientifiques des données, notre travail consiste à donner un sens aux faits. En effectuant cette analyse, nous devons cependant prendre des décisions subjectives. Ainsi, même si nous travaillons avec des faits et des données concrètes, la science des données comporte une forte composante interprétative.

Par conséquent, les scientifiques doivent être extrêmement prudents, car tous les humains sont très sensibles aux biais cognitifs. Nous ne faisons pas exception. En fait, j’ai vu de nombreux cas où des scientifiques ont fini par prendre des décisions basées sur des croyances préexistantes, des données limitées ou simplement des préférences irrationnelles.

Dans cet article, je veux souligner cinq des types de biais cognitifs les plus courants. Je ferai également quelques suggestions sur la manière dont les scientifiques peuvent travailler pour les éviter et prendre des décisions plus judicieuses et mieux raisonnées.

Survivance biais

Pendant la Seconde Guerre mondiale, des chercheurs du groupe de recherche à but non lucratif Center for Naval Analyses ont été chargés de résoudre un problème. Ils devaient renforcer les avions de chasse de l’armée à leurs points faibles. Pour ce faire, ils se sont tournés vers les données. Ils ont examiné chaque avion qui revenait d’une mission de combat et ont noté l’endroit où les balles avaient touché l’avion. Sur la base de ces informations, ils ont recommandé que les avions soient renforcés à ces endroits précis.

Voyez-vous des problèmes dans cette approche ?

Le problème, bien sûr, était qu’ils ne regardaient que les avions qui revenaient et pas ceux qui ne revenaient pas. Bien sûr, les données des avions qui avaient été abattus auraient presque certainement été beaucoup plus utiles pour déterminer où un avion était susceptible de subir des dommages mortels, car ce sont eux qui ont subi des dommages catastrophiques.

L’équipe de recherche a souffert d’un préjugé de survie : elle s’est contentée de regarder les données dont elle disposait sans analyser la situation dans son ensemble. Il s’agit d’une forme de biais de sélection dans laquelle nous filtrons implicitement les données en fonction de certains critères arbitraires et essayons ensuite de leur donner un sens sans réaliser ou reconnaître que nous travaillons avec des données incomplètes.

Réfléchissons à la manière dont cela pourrait s’appliquer à notre travail dans le domaine de la science des données. Supposons que vous commenciez à travailler sur un ensemble de données. Vous avez créé vos caractéristiques et atteint une précision décente dans votre tâche de modélisation. Mais peut-être devriez-vous vous demander si c’est le meilleur résultat que vous pouvez obtenir. Avez-vous essayé de chercher d’autres données ? Peut-être que l’ajout de données sur les prévisions météorologiques aux variables de ventes régulières que vous utilisez dans vos modèles ARIMA vous aiderait à mieux prévoir vos ventes. Ou peut-être que certaines caractéristiques relatives aux vacances peuvent indiquer à votre modèle pourquoi vos acheteurs se comportent d’une manière particulière à l’occasion de Thanksgiving ou de Noël.

Une façon d’atténuer ce biais est de réfléchir de manière rigoureuse et scientifique au problème en question, puis de réfléchir à tout type de données qui pourraient aider à le résoudre (plutôt que de commencer par les données). Ces approches peuvent sembler similaires, mais la seconde méthode restreint votre vision parce que vous ne savez pas ce qui manque à votre travail. En utilisant la première approche, vous saurez quelles données vous n’avez pas pu obtenir, et vous finirez par en tenir compte dans vos conclusions.

L’erreur du coût du soleil

Nous avons tous vu le sophisme des coûts irrécupérables en action à un moment donné, que ce soit en restant assis devant ce mauvais film parce que nous avons déjà payé pour lui ou en terminant cet horrible livre parce que nous étions déjà à mi-chemin. Chacun s’est retrouvé dans une situation où il a fini par perdre plus de temps parce qu’il essayait de récupérer le temps qu’il avait déjà investi. Un coût irrécupérable, également appelé coût rétroactif, est un montant qui a déjà été engagé et qui ne peut être recouvré par une action supplémentaire. Le sophisme des coûts irrécupérables fait référence à la tendance des êtres humains à prendre des décisions en fonction de l’investissement qu’ils ont déjà réalisé, ce qui conduit à un investissement encore plus important mais sans aucun retour sur investissement. Parfois, aussi difficile que cela puisse être, la meilleure chose à faire est de lâcher prise.

Cela arrive souvent avec les projets de science des données. Un projet peut durer plus de deux ans sans résultat, mais un chercheur continue à le mener parce que beaucoup de temps, d’argent et d’efforts ont déjà été investis. Ou bien un chercheur en sciences des données peut défendre son projet sans réserve parce qu’il a tant investi, sans se rendre compte que le fait de travailler davantage ne l’aidera pas, ni lui ni l’entreprise, à long terme, et qu’il est préférable de mettre le projet au rebut.

Une façon de se préserver de ce biais cognitif est de se concentrer sur les bénéfices et les coûts futurs plutôt que sur les coûts passés déjà perdus. Vous devez prendre l’habitude, aussi difficile soit-elle, d’ignorer les informations sur les coûts antérieurs. Bien sûr, il n’est jamais facile pour nous, spécialistes des données, de simplement ignorer les données. Pour ma part, j’ai constaté qu’une méthode méthodique est la plus efficace dans ce cas. Je prends un stylo et du papier pour m’éloigner de toutes les distractions et j’essaie de trouver tous les coûts supplémentaires nécessaires pour réaliser un projet ainsi que les avantages que je pourrais en tirer à l’avenir. Si la partie coût de la tâche semble trop importante, il est temps de passer à autre chose.

Fausse causalité

En tant que spécialistes des données, nous sommes toujours à la recherche de modèles. Cette tendance signifie que parfois, nous trouvons même des modèles là où il n’y en a pas vraiment. Nos cerveaux sont tellement entraînés de cette façon que nous pouvons même donner un sens au chaos dans la mesure du possible.

Parce que notre formation nous pousse à rechercher des modèles, il est crucial de se rappeler la simple maxime selon laquelle la corrélation n’implique pas de causalité. Ces cinq mots sont comme le marteau de la boîte à outils de la science des données sans lequel vous ne pouvez rien accomplir. Ce n’est pas parce que deux variables se déplacent en tandem que l’une d’elles est nécessairement la cause de l’autre.

Ce principe a été démontré de façon hilarante par de nombreux exemples. Par exemple, en En examinant les données des services d’incendie, vous remarquez que, plus les pompiers sont envoyés sur les lieux d’un incendie, plus les dommages causés à un bien sont importants. On peut donc en déduire que plus les pompiers sont nombreux, plus les dégâts sont importants. Dans un autre exemple célèbre, un universitaire qui enquêtait sur la cause de la criminalité à New York dans les années 1980 a constaté une forte corrélation entre le nombre de crimes graves commis et la quantité de glace vendue par les vendeurs de rue. Mais faut-il en conclure que manger de la glace pousse les gens au crime ? Comme cela n’a pas beaucoup de sens, nous devrions évidemment soupçonner qu’une variable non observée est à l’origine des deux. C’est pendant l’été que les taux de criminalité sont les plus élevés, et c’est également à cette période que la plupart des glaces sont vendues. La vente de glaces ne provoque pas la criminalité, et la criminalité n’augmente pas non plus les ventes de glaces. Dans ces deux cas, un examen trop superficiel des données conduit à des hypothèses erronées.

En tant que spécialistes des données, nous devons être conscients de ce biais lorsque nous présentons des résultats. Souvent, des variables qui pourraient sembler causales ne sont pas examinées de plus près. Nous devons également veiller tout particulièrement à éviter ce type d’erreur lorsque nous créons les variables de nos modèles. À chaque étape du processus, il est important de se demander si notre variable indépendante n’est pas simplement corrélée à la variable dépendante.

Disponibilité biais

Avez-vous déjà dit quelque chose comme : « Je sais que [insert a generic statement here]parce que [insert one single example].” Par exemple, quelqu’un pourrait dire : « On ne peut pas devenir gros en buvant de la bière, parce que Bob en boit beaucoup et il est mince ». Si c’est le cas, c’est que vous avez souffert d’un préjugé de disponibilité. Vous essayez de donner un sens au monde avec des données limitées.

Les gens ont naturellement tendance à fonder leurs décisions sur des informations dont ils disposent déjà ou sur des choses dont ils entendent souvent parler, sans chercher d’autres solutions qui pourraient être utiles. Par conséquent, nous nous limitons à un sous-ensemble très spécifique d’informations.

Cela arrive souvent dans le monde de la science des données. Les spécialistes des données ont tendance à obtenir et à travailler sur des données plus faciles à obtenir plutôt que de chercher des données plus difficiles à rassembler mais qui pourraient être plus utiles. Nous nous contentons de modèles que nous comprenons et qui nous sont accessibles dans un ensemble soigné, plutôt que de quelque chose de plus adapté au problème posé mais beaucoup plus difficile à obtenir.

Une façon de surmonter les préjugés sur la disponibilité des données en science est d’élargir nos horizons. Engagez-vous en faveur de l’apprentissage tout au long de la vie. Lire. Beaucoup. Sur tout. Alors, lisez-en plus. Rencontrez de nouvelles personnes. Discutez de votre travail avec d’autres spécialistes des données au travail ou dans des forums en ligne. Soyez plus ouvert aux suggestions sur les changements que vous pourriez avoir à apporter à votre approche. En vous ouvrant à de nouvelles informations et idées, vous vous assurez que vous êtes moins susceptible de travailler avec des informations incomplètes.

Biais de confirmation

Une vieille blague dit que si vous torturez les données assez longtemps, il avouera. Avec suffisamment de travail, vous pouvez déformer les données pour qu’elles disent ce que vous voulez qu’elles disent.

Nous avons tous des croyances, et c’est bien ainsi. Tout cela fait partie de l’être humain. Ce qui ne va pas, cependant, c’est lorsque nous laissons ces croyances entrer par inadvertance dans la manière dont nous formons nos hypothèses.

Cette tendance se manifeste dans notre vie quotidienne. Nous interprétons souvent les nouvelles informations de manière à ce qu’elles deviennent compatibles avec nos propres croyances. Nous lisons les nouvelles sur le site qui se rapproche le plus de nos convictions. Nous parlons à des personnes qui nous ressemblent et qui ont des opinions similaires. Nous ne voulons pas obtenir de preuves déconcertantes car cela pourrait nous amener à changer notre vision du monde, ce que nous pourrions avoir peur de faire.

Par exemple, j’ai constaté un biais de confirmation dans l’action en science des données au cours de la phase d’analyse coûts-avantages d’un projet. J’ai vu des gens s’accrocher aux données qui confirment leur hypothèse tout en ignorant toutes les preuves contradictoires. Il est évident que cela pourrait avoir un impact négatif sur la section des bénéfices du projet.

Une façon de combattre ce parti pris est d’examiner de façon critique toutes vos croyances et d’essayer de trouver des preuves déconcertantes sur chacune de vos théories. J’entends par là la recherche active de preuves en allant dans des endroits où vous n’allez pas habituellement, en parlant à des personnes avec lesquelles vous ne parlez pas habituellement et en gardant généralement l’esprit ouvert.

À notre époque de surcharge d’informations, nous sommes entourés de tant de données que notre cerveau essaie désespérément de donner un sens au bruit. Il est parfois utile de pouvoir donner un sens au monde en se basant sur des informations limitées. En fait, nous prenons la plupart de nos décisions sans trop réfléchir, en suivant notre instinct. Le préjudice potentiel de la plupart de nos actions quotidiennes est assez faible. Cependant, laisser nos préjugés influencer notre travail peut nous mettre dans une situation malheureuse. Nous pouvons finir par perdre de l’argent ou de la crédibilité si nous prenons une décision vitale qui s’avère mauvaise.

Savoir comment fonctionne notre cerveau nous aidera à éviter ces erreurs.

Cet article a été publié à l’origine sur Built In par Rahul Agarwal. Vous pouvez lire l’article original ici.

Couverture de la Corona

Lisez notre couverture quotidienne sur la façon dont l’industrie technologique réagit au coronavirus et abonnez-vous à notre bulletin hebdomadaire Coronavirus in Context.

Pour des conseils et des astuces sur le travail à distance, consultez nos articles sur les quarts de croissance ici ou suivez-nous sur Twitter.