LES DESSOUS DE L’IA : entre performance algorithmique et esclavage numérique

Tags

Toutes les sidérations ne sont effrayantes. Certaines peuvent même être enthousiasmantes, du moins à première vue. Prenons le cas du buzz techno de ces dernier mois, le chatbot conversationnel portant le doux nom de ChatGPT-3, disponible pour le grand public depuis le 30 novembre dernier. En à peine plus de deux mois, ce logiciel élaboré par la firme californienne Open AI a été testé par des millions d’utilisateurs dont la très grande majorité n’a pu qu’être bluffée par la qualité rédactionnelle et stylistique des textes produits, en anglais, mais aussi en français par ce logiciel : du quatrain humoristique rédigé dans un style shakespearien à la lettre de motivation se voulant « performative » en passant par des lignes de code logiciel jusqu’au petit mémo sur n’importe quel sujet – du moins concernant des événements antérieurs à 2021. La version actuelle de l’algorithme n’a pas été alimentée en données plus récentes : il ne peut actuellement pas dire qui a gagné la coupe du monde de football au Qatar et la guerre en Ukraine se limite pour lui à la séquence initiale de 2014.

Ses performances du moment – même limitées et encore largement perfectibles (reposant tout de même sur plus de 500 milliards de textes provenant du Web et de livres et d’encyclopédies) – peuvent constituer une bénédiction pour les lycéens un peu flemmards ou les plagiaires de tout poil. ChatGPT, dans ses versions ultérieures (anticipons les performances de ChatGPT-12 ou 15, d’ici une petite vingtaine d’année) ou encore le logiciel de traduction DeepL, aux résultats tout aussi impressionnants ; vont prodigieusement faire évoluer de nombreux métiers « à forte valeur intellectuelle » (juriste, avocat, journaliste, codeur informatique) qui pourraient d’ici moins d’une décennie devoir, pour le meilleur mais aussi le pire, « faire avec » une Intelligence artificielle, plus fiable et plus rapide qu’un cerveau humain. De quoi modifier drastiquement les besoins en personnels qualifiés dans de nombreux secteurs d’activités, tout particulièrement le tertiaire et les services.

Cette automatisation butte néanmoins sur certaines limites et la présence humaine ne peut totalement être évacuée. Celle-ci demeure indispensable – même si en nombre plus réduite – pour superviser, contrôler, affiner, rationaliser les résultats produits par les solutions algorithmiques.

Hormis ses lacunes en données récentes, ChatGPT, dans sa version actuelle, peut facilement être détourné de ses objectifs premiers et servir de « super propagateur d’infox » au service de thèses complotistes. C’est ce qui résulte d’une étude rendue public fin janvier par la start-up Newsguard, dédiée à l’évaluation de sites et réseaux sociaux en ligne susceptibles de relayer ou amplifier des fake-news. Un résultat qui souligne la nécessité de renforcer les « gardes fous » au sein de l’algorithme afin de réduire au minimum les résultats « dysfonctionnels », qu’il s’agisse de la reprise de thèses complotistes ou de la formulation de réponses dans un style grossier, sexiste ou raciste. On rappellera la « catastrophe industrielle » subie par Microsoft lors du lancement de son agent conversationnel Tay en mars 2016, rapidement désactivé en raison de sa tendance à proférer des propos racistes et sexistes, le contenu de la base de données d’apprentissage de l’IA reposant en grande partie sur de nombreux commentaires outranciers, haineux et complotistes circulant alors sans grande régulation sur Twitter.

Afin d’éviter de tels déboires, OpenAI a conclu un partenariat fin 2021 avec une autre firme californienne, Sama, afin de former ChatGPT-3 à discriminer les contenus « à problèmes », qu’ils soient violents, haineux, racistes ou pornographiques. Sama se présente comme une firme « socialement éthique », spécialisée dans l’annotation de données textuelles et picturales pour le compte des grands opérateurs du monde digital, de Facebook à Meta, en passant par Google et Microsoft…

Pour des raisons de coûts mais aussi de contraintes juridiques et sociétales, Sama a confié cette tâche à sa filiale kényane. Cette délocalisation de l’outsourcing résulte du fait que les contenus « non-conventionnels » devant être étiquetés pour le compte d’OpenAI ne sont guère politiquement corrects dans l’Amérique post « MeToo » et post « BlackLiveMatter », voire carrément illégaux dans bon nombre de pays occidentaux, qu’il s’agisse de propos racistes ou d’images pédopornographiques. Une petite quarantaine d’employés kényans ont donc été recrutés pour annoter des milliers de données textuelles et iconographiques inappropriés afin d’apprendre à ChatGPT à identifier ces contenus « toxiques ». Une tache fondamentale pour le bon fonctionnement de l’agent conversationnel mais aussi son acceptabilité sociale et sa réussite économique, sachant d’OpenAI, actuellement valorisé à 29 Mds de $, est en discussion pour une entrée de Microsoft dans son capital à hauteur de 10 Mds de $. Du fait de ces enjeux financiers, aucune faute de goût susceptible d’impacter l’image de la firme n’était tolérable…

Les employés kenyans de Sama ont ainsi été exposés quotidiennement à la lecture ou au visionnage de centaines de contenus éprouvants, voire parfois insoutenables. Ils devaient les trier et les étiqueter pour affiner la connaissance de l’IA en matière de turpitudes humaines. Une telle exposition continue tout au long de leur journée de travail de 9 heures n’a pas manqué de provoquer des effets traumatiques à ces data labelers. Ceux-ci, issus d’une société est-africaine caractérisée par son conservatisme moral et sa pudeur (voire sa pudibonderie), devaient ingurgiter quotidiennement des tombereaux des pires ignominies générées par l’espèce humaine : décapitation d’otages par Daesh, meurtre, lynchage racial, torture, abus sexuel, zoophilie, inceste, pédopornographie, toute la lie et le pire que l’on puisse trouver dans les tréfonds les plus sombres du Net. Un Vrai choc culturel…

Un récent article de Time s’est fait écho de ce contrat « sulfureux » délocalisé au Kenya et des troubles qu’il suscitait parmi les salariés de Sama, par ailleurs relativement peu payés pour supporter ce travail harassant à la charge mentale si lourde : entre 1,32 et 2 $ l’heure pour une tache facturée entre 30 et 45 $ dans un pays occidental, mais représentant environ le double du salaire moyen au Kenya. Certains employés n’ont pas tardé à qualifier de « torture psychologique » leur travail quotidien et leurs impératifs de productivité (lire ou visionner une centaine de documents par jour et y signaler les passages « sensibles »). Le contrat entre OpenAI et Sama a finalement été cassé à la demande du prestataire, provoquant la fermeture de sa filiale kényane et le licenciement de son équipe locale.

Les performances algorithmiques de ChatGPT ne sauraient occulter que la présence humaine demeure (encore ?) incontournable dans le développement du secteur de l’IA. Il ne s’agit pas seulement de quelques geeks géniaux phosphorant dans quelques start-ups de la Silicon Valley, mais aussi de cohortes de petites mains bon marché, taillables et corvéables à merci, assignées à des taches ingrates et « outsourcées » dans des pays du Sud tentant d’émerger. Ce qu’il faut bien appeler une forme d’esclavage numérique, au sens d’un labeur moralement éprouvant, sous-payé et réalisé dans des conditions difficiles et susceptibles d’affecter la santé mentale des travailleurs. Une illustration caractéristique du monde technologique à la fois innovant, performant et dysfonctionnel qui nous attend au cours des prochaines décennies.