L’intelligence artificielle et plus particulièrement l’apprentissage profond a l’image d’une technique froide, neutre, déshumanisée, objective. C’est ignorer la façon dont on construit les logiciels.
Le logiciel d’apprentissage, en mode supervisé, apprend des données qu’on lui fournit. Si ces données sont orientées, et elles le sont toujours un peu, alors les conclusions tirées par le logiciel le seront aussi.
Par exemple, imaginons que vous décidiez d’évaluer la dangerosité, le risque de criminalité d’une personne, à partir de paramètres tels que l’âge, le lieu de résidence, la couleur de peau, le diplôme le plus élevé, … et que pour entraîner votre logiciel, vous utilisiez les données fournies par les centres de détention, les prisons.
Alors il est fort probable que votre logiciel minimise fortement les risques pour les personnes blanches et l’augmente pour les autres.
Mais si, vous supprimez la couleur de peau de vos variables, alors les résultats seront probablement… identiques car les autres variables sont aussi corrélées à la couleur de la peau.
On voit très clairement que dans ce cas, les données sont très orientées.
Mais le plus souvent il n’y a pas d’a priori dans la construction des données, et pour autant elles sont orientées.
Des chercheurs ont montré récemment que les logiciels de reconnaissance de visage(s) sont moins performants pour la reconnaissance des visages de femmes que pour ceux des hommes et moins performants pour reconnaître les peaux sombres que les peaux blanches.


La raison pour laquelle ces performances sont différentes ne tient pas à une quelconque difficulté mais au fait qu’il y a plus de mâles blancs dans les données d’apprentissage.
C’est ce qu’on appelle le biais en intelligence artificielle.
Ce biais se trouve partout et il est difficile de s’en prémunir.
Lorsque les biais ne font que diminuer les performances des logiciels de reconnaissance de visages ce n’est pas un énorme problème mais lorsqu’ils vous empêchent d’obtenir un prêt bancaire, un job, une assurance médicale, là ça commence à être sérieux. Vous devenez un sujet à risque(s) pour des raisons de construction du jeu de données d’apprentissage.
Certains diront qu’être refusé pour cause de biais plutôt que pour des raisons objectives ne change rien, mais c’est faux car comment jouer si les dés sont pipés ?