Les débats sur les définitions de la « fairness » d’un algorithme

Marie Jacqueau, étudiante en master à Sciences Po, coordination par Christine Balagué, Professeur, Institut Mines-Télécom Business School, Titulaire Chaire Good in Tech

29/07/2020

Un algorithme est un ensemble de règle et d’instruction en vue d’obtenir un résultat. Il renvoie à un processus, qui produit un résultat à partir de données enregistrées ou envoyées. Le traitement des données par un algorithme vise de plus en plus à atteindre une indépendance. Les premiers algorithmes suivaient des arbres de décisions pour produire un résultat, et avaient tendance à se rapprocher d’un mode de raisonnement humain. Les progrès techniques permettent aujourd’hui un système de machine learning, c’est-à-dire que le logiciel devient capable d’apprendre de nouvelles connexions grâce à sa propre expérience de traitement de données. Les progrès techniques permettent donc une plus grande indépendance vis-à-vis de l’intervention humaine dans le traitement de donnée. Le récent développement des algorithmes a permis une intégration progressive de cette technologie dans notre quotidien : ce sont des outils de recommandation (Netflix), des aides à la décision (APB), des moteurs de recherche (Google) ou encore des logiciels intégrés à une technologie (voiture intelligente). Face à cette intégration au sein de la société, un impératif éthique exige la « fairness » de ces algorithmes, c’est-à-dire la neutralité et l’équité de ces outils de sélections, de tri d’information.
Dans quelle mesure les algorithmes permettent-ils l’équité et neutralité dans le traitement des données ?

Nous verrons dans un premier temps que les attentes théoriques de fairness sont en pratique déçues par des réalités de biais de programmation. Nous verrons ensuite les possibles solutions à ce défaut de fairness.

 

I. Les attentes théoriques de fairness d’un algorithme sont en pratique déçues par des réalités de biais de programmation. Ce constat d’un décalage fait émerger des débats sur l’application des algorithmes dans notre mode de vie.

A. Les attentes d’un algorithme neutre équitable, déçues par le constat de résultat à l’encontre de la « fairness »

 Les attentes d’un algorithme sont claires : en permettant un traitement des informations indépendamment du jugement humain, il serait la clé pour atteindre une neutralité et une équité. En effet, un traitement neutre permettrait une représentation fidèle à la réalité, conforme aux attentes et aux intérêts des personnes que l’algorithme sert. Le principe d’équité supposerait par ailleurs une capacité à traiter l’information sans établir de distinction préférentielle comme l’ethnicité, le genre ou le niveau social d’un utilisateur. Le but d’un algorithme est d’éviter un système préférentiel qui favoriserait un type d’utilisateur au détriment d’un autre, ce qui peut se produire par le biais humain de l’opinion ou du préjugé par exemple. Cependant, lorsque l’on étudie les résultats de traitements d’informations produits par certains algorithmes, un constat d’inégalité ressort. Un article de Pro Publica a par exemple dénoncé qu’un algorithme de justice prédictive considère deux fois plus les noirs comme « haut risque » de récidive par rapport aux blancs. Ou encore, l’algorithme de recrutement d’Amazon a été fortement critiqué pour la pénalisation des femmes dans la sélection. Des exemples qui témoignent d’une catégorie défavorisée par rapport à une autre dans le traitement des informations, avec des répercussions concrètes dans l’organisation de la société et la reproduction des inégalités. Face au système du machine learning, il devient complexe d’expliquer ou de comprendre ces résultats biaisés. L’opacité de plus en plus présente dans le traitement des algorithmes empêchent la compréhension de ces biais.
 

B. Les trois biais dans la programmation de l’algorithme

Plusieurs biais interviennent dans la programmation d’un algorithme. En effet, si cette technologie prétend traiter les données sans intervention humaine, toute la logique de ce traitement découle de l’humain, c’est bien l’homme qui met au point l’algorithme. Ainsi, il est inévitable de retrouver un biais humain dans le processus algorithmique. La mathématicienne Cathy O’Neill a déclaré qu’un algorithme n’était qu’une « opinion intégrée au programme », c’est-à-dire une logique de jugements de valeurs et d’associations préjugées. Il est possible de distinguer trois types de biais humains qui interviennent dans la conception de l’algorithme.

Le biais cognitif renvoie à des associations d’idées, à des raccourcis intellectuels liés à des croyances populaires, sociales ou culturelles. Ils résultent d’un effet de « mouton de panurge », et sont généralement appliqués au sein d’un même groupe. Ainsi, en fonction de l’appartenance sociale du programmeur, l’algorithme traduira des corrélations illusoires, des croyances d’associations, une perception biaisée du traitement d’une donnée. Ces biais cognitifs transmettent par exemple les stéréotypes sur le genre ou l’ethnicité. Un algorithme mis au point par deux chercheurs en psychologie à Stanford a par exemple mis au point un algorithme capable de déterminer l’orientation sexuelle selon le faciès d’un sujet. L’idée était de démontrer que l’homosexualité serait liée à des hormones présentes avant la naissance, qui se traduiraient par un type de physique, imperceptible par le cerveau humain. Cependant, le convertissement de données physiologiques en résultat psychique demeure contestable. L’association entre telle caractéristique physique et telle orientation sexuelle semble plus résulter de clichés et stéréotypes propres à une culture. Alors même qu’il visait à atteindre une objectivité scientifique, cet algorithme s’expose à des biais cognitifs véhiculés par des préjugés sociaux.


Un deuxième biais est le biais statistique. Ce biais ne concerne pas le mode de traitement des données mais la base de donnée mis à disposition de l’algorithme lors de sa programmation. Si un algorithme est créé sur une base de données erronées, incomplètes ou inégales, le résultat produit sera forcément biaisé. Ce type de biais résulte donc de la sélection et de la provenance des données utilisées lors de la conception d’un algorithme. Il traduit l’acronyme « Garbage in, garbage out », c’est-à-dire que la qualité du résultat traduit la qualité des données à l’entrée. L’algorithme de recrutement d’Amazon a par exemple révélé les failles en cas de biais statistique. Le projet initial était de simplifier la phase de recrutement, et Amazon a confié à une intelligence artificielle la phase de sélection des CV : sur cent CV, l’algorithme ne retenait que les cinq meilleurs, en fonction de la base de données de sélection de l’entreprise. Le défaut de la technologie réside dans ce dernier point. Les données disponibles représentaient les critères d’embauche des dix dernières années. Or, Amazon affiche un taux d’embauche des hommes plus élevé que pour les femmes (60 et 40%), ce qui laisse penser que ces données favorisent considérablement les hommes. En effet, l’algorithme fondé à partir de ces données reproduisaient la discrimination historique à l’égard des femmes, et défavorisait les profils qui provenaient des universités exclusivement féminines ou les CV qui mentionnaient le mot « femme ». Le biais statistique peut ainsi impacter l’ensemble du processus de traitement des informations, et nuire à la fairness de l’algorithme.

Le troisième biais est économique : il renvoie aux limitations volontaires ou non d’un algorithme lié à des motifs financiers. Il se traduit par une expansion ou un déploiement inégal de l’algorithme, profitant à un type d’individu au détriment d’un autre. Un exemple très concret est l’algorithme publicitaire. En effet, l’embauche devient de plus en plus numérique et de nombreux secteurs d’emploi décident de passer par des annonces en lignes pour recruter. Le problème structurel de cette tendance est que le marché ciblant les femmes est bien plus cher que celui ciblant les hommes. Cela s’explique par la forte concurrence de visibilité qui s’opère entre les secteurs de cosmétique et de beauté. Ainsi, un algorithme proposant des offres d’emploi va plus facilement choisir comme cible les hommes, moins coûteux que celui des femmes. Deux chercheuses du MIT ont dénoncé l’inégalité de chance produit par ce système : Une annonce publiant une offre d’emploi du secteur scientifique sera consultée 20% de fois plus par des hommes que par des femmes. Le biais économique et les restrictions budgétaires nuisent ainsi à l’équité d’un algorithme, au départ supposé être neutre.

Il apparaît donc évident qu’un débat émerge quant à la fairness d’un algorithme. Il est certain que cette technologie se réclame d’une volonté d’équité, de neutralité du traitement de l’information. Pourtant, il subit différents biais, liés à sa programmation, à sa manière de traiter des données ou à son déploiement. Il peut ainsi produire des résultats contestables d’un point de vue éthique. Plusieurs solutions sont proposées pour pallier cette faiblesse algorithmique.

 

II. Des possibles solutions émergent pour corriger et contrôler l’application jugée biaisée des algorithmes. Cette technique de recalibrage de l’intelligence artificielle correspond au mouvement d’amélioration historique des technologies mais se heurte néanmoins à des limites.

A. Des débats sur une possible correction, visant à atteindre un concept supposé universel de « fairness »

Plusieurs pistes proposent de corriger les faiblesses de fairness d’un algorithme en limitant les biais statistiques et algorithmiques. Il s’agit donc d’une correction manuelle en modifiant, supprimant ou ajoutant les données du système. Il s’agit par exemple de technique d’analyse statistique des données permettant de mesurer la probabilité qu’un type d’individu y soit représenté ou non, appelé « probabilité d’inclusion ». Si cette donnée a un impact sur le processus de sélection ou de traitement, il faudrait corriger le mécanisme de sélection en intégrant cette variable. Si cet élément n’a en revanche aucune conséquence sur le processus, elle pourra être ignorée. Mais là encore, cette solution de redressement d’apprentissage de l’algorithme, ce « machine learning supervisé », fait débat : en effet, le biais humain choisit quelle donnée est limitante ou non. Ainsi, déterminer si une donnée absente nécessite un recalibrage de l’algorithme implique forcément un biais humain. Très concrètement, certains décideront qu’un faible taux de roux représentés dans les données de l’algorithme n’est pas un biais impactant, alors que d’autres y verront une discrimination contre les roux nécessitant une correction de l’algorithme. Plus largement, c’est la notion de fairness comme valeur universelle qui fait débat. En effet, en fonction de chaque culture, chaque société, chaque individu, le concept de fairness soulève des priorités et engagements différents. Ainsi, vouloir corriger un algorithme au nom d’une application universelle de concept d’équité relève du défi de mettre tout le monde d’accord sur ce qu’est l’équité. La neutralité du traitement des données traduit-elle l’équité ? Ou bien la discrimination positive permet-elle l’équité ? L’ouverture à un débat philosophique réduit ainsi une possible correction des biais algorithmiques. Le débat ne réside donc pas uniquement dans la fairness ou non du code d’un algorithme, mais également dans la possible correction de ce code.
 

B. Face à ce débat de correction, une solution d’encadrement et de contrôle de l’algorithme émerge

En effet, il semble de plus en plus complexe de corriger un algorithme. En revanche, le contrôle du mécanisme de traitement des données et la compréhension s’impose comme filet de sécurité de ces technologies. Plusieurs pistes sont proposées afin de limiter un code source biaisé. Une nécessité d’interprétabilité permet de comprendre le résultat produit par un algorithme. Il semble crucial d’être capable de comprendre le code source qui sélectionne une donnée plutôt qu’une autre, afin de mesurer la part de biais qui intervient dans le processus. L’objectif est d’être capable de prendre du recul par rapport au résultat sortant, de pouvoir le contester ou l’approuver. Cela passe par une compréhension globale de l’algorithme, de sa création à partir d’un ensemble de données, jusqu’à sa logique d’apprentissage et de sélection. Cette piste va de pair avec un souci de transparence de l’algorithme. Ce point pose problème puisque en général, l’algorithme fait partie de l’asset d’une entreprise, il lui appartient. Face à cette vision d’algorithme comme « boite noire » confidentielle, la CNIL propose par exemple un organisme tiers qui serait chargé d’examiner les codes sources. Une autorité d’intérêt public, n’appartenant pas au marché de l’algorithme pourrait ainsi être désignée pour contrôler les algorithmes, et s’assurer d’un souci d’équité.

Enfin, une dernière piste se situe dans la responsabilité de l’algorithme. Il s’agit d’éveiller les consciences sur l’impact que peut avoir un algorithme biaisé, et sur la possibilité de désigner un responsable si ce dernier nuit au principe d’équité. L’engagement de la responsabilité du programmeur d’un algorithme, de la société qui le commercialise ou encore de celui qui l’utilise sanctionnerait un usage abusif, non équitable ou discriminant. La commission européenne travaille sur la création d’un statut de « personne électronique » afin de représenter juridiquement un algorithme ou une intelligence artificielle dans la procédure judiciaire. Cette annonce a fait l’objet de contestations de la communauté scientifique, qui a publié une lettre ouverte signée par plus de 200 experts robotiques décriant cette mesure.


Les solutions d’encadrement sont donc également animées par des débats et les divergences d’opinions. Elles constituent un défi pour les autorités de contrôle, qui doivent s’adapter à la nouvelle technologie algorithmique, pour l’intégrer dans leur système de normes. Ce travail de contrôle semble plus adapté qu’une correction subjective des algorithmes, mais il nécessite une entente entre concepteurs, autorités et entreprise.


Ainsi, l’algorithme soulève de nombreux débats sur la notion de « fairness », qui renvoie à des divergences d’interprétation. Il semble crucial de garder à l’esprit que l’algorithme est conçu par des humains, et reproduira intrinsèquement les données mises à disposition. L’enjeu demeure ainsi dans la capacité à prendre du recul par rapport au résultat qu’il produit : ce n’est pas le résultat en soit qui est inéquitable mais l’application de ce résultat.

Derniers articles

Partager en ligne