Les chercheurs ont analysé 10 000 sites web – et oui, ils se ressemblent tous

0
139

Saviez-vous que nous avons un conférence en ligne sur la conception des produits à venir ? SPRINT portera sur la manière dont les concepteurs et les propriétaires de produits peuvent garder une longueur d’avance en ces temps sans précédent.

Au cours des dernières années, des articles et des billets de blog ont commencé à poser une version de la même question : « Pourquoi tous les sites web commencent-ils à se ressembler ?

Ces messages soulignent généralement certains éléments de conception communs, des grandes images avec du texte superposé aux menus de hamburgers, qui sont ces trois lignes horizontales qui, lorsqu’on clique dessus, révèlent une liste d’options de page parmi lesquelles on peut choisir.

Mes collègues Bardia Doosti, David Crandall, Norman Su et moi-même étudiions l’histoire du web lorsque nous avons commencé à remarquer la présence de ces messages. Mais aucun des auteurs n’avait fait d’étude empirique. C’était plutôt une intuition qu’ils avaient.

Nous avons décidé d’enquêter sur cette affirmation pour voir s’il y avait une part de vérité dans l’idée que les sites web commencent à se ressembler et, si c’est le cas, d’explorer pourquoi cela se produit. Nous avons donc mené une série d’études d’exploration de données qui ont examiné près de 200 000 images sur 10 000 sites web.

Comment mesurer la similarité ?

Il est pratiquement impossible d’étudier l’ensemble de l’internet ; il y a plus d’un milliard de sites web, avec un nombre de pages web plusieurs fois supérieur. Comme il n’existe pas de liste de tous ces sites, il n’est pas possible d’effectuer un échantillonnage aléatoire de l’internet. Même si c’était possible, la plupart des gens ne voient qu’une infime partie de ces sites régulièrement, de sorte qu’un échantillon aléatoire peut ne même pas saisir l’internet que la plupart des gens connaissent.

Nous avons fini par utiliser les sites web des Russell 1000, les meilleures entreprises américaines par capitalisation boursière, qui, nous l’espérions, seraient représentatives des tendances du web design des entreprises. Nous avons également étudié deux autres ensembles de sites, l’un avec les 500 sites les plus fréquentés d’Alexa, et l’autre avec les sites nominés pour les Webby Awards.

Parce que nous étions intéressés par les éléments visuels de ces sites web, en tant que données, nous avons utilisé des images de leurs pages web provenant de l’Internet Archive, qui préserve régulièrement les sites web. Et comme nous voulions recueillir des données quantitatives comparant des millions de paires de sites web, nous avons dû automatiser le processus d’analyse.

Pour ce faire, nous avons dû nous mettre d’accord sur une définition de la « similarité » que nous pourrions mesurer automatiquement. Nous avons étudié à la fois des attributs spécifiques comme la couleur et la mise en page, ainsi que des attributs appris automatiquement à partir des données grâce à l’intelligence artificielle.

Pour les attributs de couleur et de mise en page, nous avons mesuré le nombre de modifications pixel par pixel qu’il faudrait effectuer pour transformer le schéma de couleurs ou la structure des pages d’un site web en un autre. Pour les attributs générés par l’IA, nous avons formé un modèle d’apprentissage automatique pour classer les images en fonction du site web dont elles proviennent et mesurer les attributs que le modèle a appris. Nos travaux précédents indiquent que cela permet de mesurer assez bien la similarité stylistique, mais il est très difficile pour l’homme de comprendre sur quels attributs le modèle s’est concentré.

Comment l’internet a-t-il changé ?

Nous avons constaté que pour les trois mesures – couleur, mise en page et attributs générés par l’IA – les différences moyennes entre les sites web ont atteint un sommet entre 2008 et 2010, puis ont diminué entre 2010 et 2016. Les différences de mise en page sont celles qui ont le plus diminué, avec une baisse de plus de 30 % sur cette période.