L’apprentissage automatique de la morale

Martin Gibert
12 min readApr 27, 2021

--

Une recension de Le Fabuleux chantier: rendre l’intelligence artificielle robustement bénéfique.

La Quatrième Blessure: un blogue sur l’éthique de l’intelligence artificielle.

Je viens de terminer Le Fabuleux chantier (EDP Sciences 2019) de Lê Nguyên Hoang et El Mahdi El Mhamdi . Je le recommande chaudement à tout francophone qui s’intéresse aux enjeux en éthique de l’IA et des algorithmes. Écrit par deux chercheurs — et excellents vulgarisateurs — en intelligence artificielle, le livre aborde différentes questions comme les effets secondaires indésirables des systèmes d’IA, la probabilité d’apparition d’une IA de niveau humain, la possibilité d’une morale calculable ou la feuille de route pour construire des systèmes sans danger.

Le livre regorge d’exemples concrets, comme celui de Youtube qui totalise aujourd’hui plus de recherches que Google. En visant à maximiser « l’engagement des utilisateurs », son algorithme contribue notamment à polariser les débats et à développer des addictions. Plus grave encore, il favorise certains contenus problématiques comme la propagande anti-vaccins. L’ouvrage, publié peu avant la pandémie de Covid19, ne savait pas si bien dire en affirmant que « l’IA tue déjà ».

S’il pousse les questions techniques assez loin, Le fabuleux Chantier ne cesse jamais d’être lisible par quelqu’un comme moi, c’est-à-dire sans formation en informatique ou en mathématique — il n’y a d’ailleurs qu’une seule équation au fil des pages, pour illustrer le bayésianisme. Voilà évidemment une excellente nouvelle pour le travail interdisciplinaire à venir : les sciences dures peuvent parler aux sciences humaines (incluant la philosophie morale). D’ailleurs, c’est probablement le principal mérite du livre de Hoang et El Mhamdi que de rendre abordables de nombreux pans du savoir.

Mais c’est aussi un plan machiavélique. Car en diffusant ce savoir, les auteurs contribuent d’autant à ce fabuleux chantier qui, comme le précise le sous-titre, consiste à rendre les intelligences artificielles robustement bénéfiques. Le livre défend trois thèses principales :

1) Rendre les IA bénéfiques est une urgence.

2) Rendre les IA bénéfiques est un défi monumental.

3) Il est urgent que toutes sortes de talents soient mis dans les meilleures dispositions pour contribuer à rendre les IA bénéfiques.

On en conviendra, il s’agit de thèses modestes au sens où elles ne sont ni groundbreaking ni particulièrement controversées. Mais tout l’intérêt du livre est de prendre la mesure de ce défi monumental, « peut-être le plus beau défi de toute l’histoire de l’humanité » et qui concerne aussi bien l’informatique que les mathématiques, le droit, la psychologie, la sociologie et bien sûr la philosophie morale. S’il y a urgence, expliquent Hoang et El Mhamdi, c’est parce que les systèmes d’informations automatisées (comme YouTube) font déjà des dégâts et que la situation pourrait très bien empirer. Comme le dit Nick Bostrom, il nous faut désormais philosopher avec une deadline.

L’ouvrage est clair, bien organisé et enrichi par des références à des livres, articles, vidéos, podcasts; ces recommandations sont une excellente initiative pour stimuler la recherche. De manière générale, on retrouve la qualité d’exposition de Science4all, la chaîne Youtube de Lê Nguyên Hoang qui a consacré une série à l’Intelligence artificielle et au machine Learning et en propose une nouvelle sur l’éthique des algorithmes et de l’information.

J’ai apprécié la présence de l’altruisme efficace, de la psychologie morale et la proximité des auteurs avec la recherche contemporaine en IA (qui va vite). Et s’il me faut donner un point négatif pour renforcer ma crédibilité, je dirais que c’est parfois écrit à la truelle (y a-t-il un éditeur dans l’avion?).

Définitions et effets secondaires

De quoi ça parle? Les auteurs définissent l’intelligence comme la « capacité à atteindre des objectifs » tandis qu’une IA désigne « un outil de traitement de l’information, généralement doté d’un objectif » (p.16–17). Ces définitions très ouvertes ont l’avantage de n’exclure aucune piste de l’investigation. Cela n’empêche toutefois pas Hoang et El Mhamdi de découdre certaines idées reçues, comme celle qui consiste à voir les machines comme nécessairement prévisibles.

« Certes, les machines ne font que des calculs purement mécaniques. Cependant, ces calculs, notamment lorsqu’on les combine avec d’énormes quantités de données, vont en fait très probablement nous surprendre. En effet, dans de nombreux cas, il semble que la seule manière d’anticiper le résultat du calcul soit d’effectuer tout le calcul. Or, s’il faut alors effectuer un milliard d’étape de calculs, la cognition humaine limitée n’en sera clairement pas capable. » (p.118)

J’ai appris beaucoup de choses dans Le fabuleux chantier, en particulier sur la théorie de l’information et de la complexité. J’ai découvert le biais de respectabilité qui fait que « les idées sujettes à être tournées en dérision seront moins défendues dans les articles scientifiques » (p.173) — ce qui a notamment sa pertinence pour les questions de Super-intelligence à la Bostrom et pour mes robots vertueux. Les auteurs y voient d’ailleurs un cas particulier de la malédiction de Goodhart selon laquelle dès qu’une métrique — en l’occurrence la respectabilité pour un scientifique — devient un objectif, elle cesse d’être une bonne métrique (elle prive la communauté scientifique d’idées potentiellement fructueuses).

El Mahdi El Mhamdi et Lê Nguyên Hoang

Hoang et El Mhamdi n’ont pas seulement réfléchi au contenu du savoir à transmettre mais aussi à la manière de le faire. On devine la sagesse acquise sur les réseaux sociaux à force de voir comment une certaine culture confrontationnelle va à l’encontre de l’intérêt (moral et épistémique) collectif. Il est réjouissant de voir la pensée critique — parfois appelée zététique — faire aussi son chemin du côté des compétences de dialogues. Beaucoup de chapitres se concluent ainsi par des recommandations du type:

« Si vous acceptez d’aider le fabuleux chantier en sensibilisant votre entourage aux enjeux de ce chantier, nous vous supplions toutefois de faire d’énormes efforts de bienveillance, de pédagogie et de clarté. Beaucoup d’aspects de ce chantier sont extrêmement contre-intuitifs, et beaucoup d’interlocuteurs auront des préjugés injustifiés, mais très prononcés en particulier sur ce qui devrait être. » (p.272)

Je m’interroge sur la notion d’effets secondaires. L’argument général de Hoang et El Mhamdi consiste à nous mettre en garde contre ces conséquences de l’automatisation qu’on pourrait ne pas voir venir (addiction, polarisation politique, perte de contrôle… ). Ils en appellent à la constitution d’une communauté de recherche pour les anticiper et leur trouver des palliatifs. On ne peut qu’être en accord avec cela. Mais rien ne permet d’affirmer que certains effets secondaires des systèmes d’IA ne seront pas bénéfiques, voire catastrophiquement bénéfiques. (Pourquoi ne dispose-t-on pas d’un équivalent positif du concept de catastrophe?)

En effet, s’il semble raisonnable d’être plutôt en mode défensif et de se préoccuper des conséquences indésirables, il ne faudrait pas négliger pour autant le potentiel de bonnes surprises. Par exemple, l’accès à la parole sur les réseaux sociaux de personnes marginalisées (et habituellement inaudibles) pourrait avoir des conséquences en termes de justice sociale qui sont encore difficiles à imaginer. Bref, de même que la psychologie positive (qui étudie les causes du bonheur) est venue enrichir la psychologie traditionnelle surtout préoccupée par les pathologies mentales, on pourrait envisager une éthique de l’IA et des algorithmes « positive » qui s’intéresserait aux effets secondaires désirables.

Apprentissage par renforcement ou supervisé ?

Derrière ses trois thèses générales modestes et rassembleuses, le livre fourmille d’idées beaucoup plus aventureuses — et donc intéressantes. Cette introduction est extrêmement riche et pose plusieurs questions fascinantes. Je voudrais maintenant me concentrer sur l’une d’elles, à savoir quelle technique d’IA devrait-on utiliser pour concevoir des agents moraux artificiels ou, comme le disent les auteurs, pour rendre la morale calculable.

À la suite de Turing, Hoang et El Mhamdi plaident avec enthousiasme pour l’apprentissage automatique (machine learning) — par opposition aux systèmes experts et autres GOFAI. L’intelligence aura plus de chance de se développer en laissant les machines apprendre et écrire toutes seules leur code qu’en rédigeant le programme à la main. Dans le cas des agents moraux artificiels, cela signifie qu’on renonce également à établir à la main le code moral à implémenter. On est donc loin de l’approche par les lois de la robotique d’Asimov (sans doute tapées à la machine à écrire!) où les robots respectent des règles hiérarchisées, comme c’est le cas avec les systèmes experts.

On sait qu’il existe différentes méthodes d’apprentissage automatique: supervisé, non supervisé, par renforcement… C’est cette dernière que choisissent les auteurs pour l’architecture générale de leur IA robustement bénéfique. Ils lui donnent même un nom, Alice. Dans son livre Human Compatible, le chercheur en IA Stuart Russell préconise lui aussi de s’appuyer sur l’apprentissage par renforcement — en particulier du inverse reinforcement learning. Cette méthode qui s’inspire des punitions et récompenses en psychologie animale a permis à Alphago, une IA de Deepmind, de battre le champion de go Lee Sedol. « Il semble que la motivation d’une récompense suffise à forcer une IA à comprendre en profondeur son environnement, et à planifier des stratégies étonnement sophistiquées. » (p.159)

Comme chez Russell, cette approche conduit Hoang et El Mhamdi à l’idée qu’une IA bénéfique devrait suivre les préférences des gens. Même s’ils ne le mentionnent pas, il semble qu’on se retrouve sur le terrain de l’utilitarisme des préférences où l’action correcte est celle qui maximise la satisfaction des préférences (des patients moraux).

Les auteurs examinent alors les différents modules qui pourraient composer cette IA. Ainsi, une IA qui fonctionne, comme Alice, à l’apprentissage par renforcement requiert un module d’ajustement de ses récompenses (Bob) qui doit résoudre certaines questions de sécurité. Mais une telle IA doit aussi disposer d’un modèle du monde permettant des prédictions (Dave), modèle inféré à partir des données recueillies par un collecteur (Erin).

Reste qu’il manque encore à cette architecture le plus important pour constituer une IA bénéfique: un module proprement normatif ou prescriptif (Charlie), capable de définir les objectifs pour Alice, en calculant par exemple des « scores de désirabilité » pour différents états du monde. Autrement dit, c’est à ce module qu’incombe la charge de déterminer ultimement ce qu’est une bonne ou une mauvaise recommandation sur YouTube ou quelle serait la bonne attitude à adopter dans un dilemme de voiture autonome.

Supposons que Charlie, notre module de la moralité, s’inspire effectivement de l’utilitarisme des préférences. Surgit alors une difficulté pour déterminer la bonne action; car maximiser la satisfaction des préférences des gens ne conduit pas directement à un monde désirable. Après tout, si certains postent des vidéos pour offenser ou traumatiser les utilisateurs de YouTube, c’est parce qu’ils ont une préférence pour cela. On peut même imaginer des situations troublantes où une telle théorie justifierait qu’on laisse un martyr chrétien se faire dévorer par des lions dans une arène de la Rome antique, parce que sa préférence (à ne pas être mangé) est contrebalancé par les préférences du public qui est venu, nombreux, assister au spectacle.

Bref, il semble nécessaire de faire le tri entre les bonnes et les mauvaises préférences, entre un désir acceptable et des préférences sadiques comme la Schadenfreude, cette joie prise au malheur d’autrui. Les auteurs empruntent alors au chercheur Eliezer Yudkowsky l’idée d’une volition cohérente extrapolée, c’est-à-dire de préférences plus sages, corrigées par un genre de moi amélioré, un « moi ++ ». « Bien souvent, nous préférons aller sur Facebook ou Twitter, mais nous préférerions ne pas aller sur Facebook ou Twitter.(…) Ce que l’on veut vouloir peut différer de ce que l’on veut. » (p.225) Ce qu’il faut considérer, ce ne sont donc pas les préférences réelles des gens, mais une sorte d’idéalisation: des préférences informées et cohérentes entre elles.

C’est donc là qu’opère le travail normatif: dans la mise en cohérence de ces préférences parfois opposées, comme celles du martyr chrétien et des spectateurs romains. Dans le fond, cela consiste à parier que les moi++ des spectateurs n’auront pas de préférences sadiques. Or, il ne va pas de soi que des spectateurs parfaitement informés ne voudraient pas qu’on jette le martyr aux lions. Encore une fois, même si les auteurs ne s’engagent pas explicitement sur la voix de l’utilitarisme des préférences, j’ai le sentiment que c’est le même type de défi qu’ils doivent relever. Et je ne suis pas complètement convaincu par la stratégie de la volition cohérente incarnée qui me semble très difficile à réaliser techniquement.

Dans mon livre Faire la morale aux robots, j’explore une autre voix, celle d’une alliance entre l’apprentissage supervisé et l’éthique de la vertu. L’idée de base consiste à partir de la définition de la bonne action proposée par Rosalind Hursthouse (1991): « Une action est moralement correcte [right] si et seulement si c’est ce qu’un agent vertueux ferait dans ces circonstances. » Dès lors, si on parvient à construire un système d’intelligence artificielle qui se comporte comme le ferait un agent vertueux, on sera face à un « robot vertueux » qui pourrait aussi bien être l’IA robustement bénéfique que l’on cherche à développer.

Selon l’approche arétaïque, c’est-à-dire celle qui suit l’éthique de la vertu, il s’agit d’utiliser l’apprentissage automatique pour entraîner des algorithmes à se comporter comme le feraient des personnes vertueuses. Recueillir des données auprès de millions (?) de personnes vertueuses pour faire de l’apprentissage supervisé paraît être la méthode à suivre. Que vaudrait, par exemple, un modèle de langage statistique comme GPT-3 entraîné à partir de leurs textos, leurs chats et leurs courriels?

Je crois que le défi de la constitution d’une base de modèles de vertus (qui choisir?) n’est pas rédhibitoire, surtout si l’on s’autorise une marge d’erreur. Après tout, l’idée n’est pas de fabriquer des robots qui se comportent comme des saints moraux, mais plutôt — selon l’expression de Wallach et Allen -, comme de bons voisins, des personnes en qui l’on peut avoir confiance au quotidien. Si notre robot « vertueux » se comporte un peu mieux que l’humain moyen, ce sera déjà un progrès significatif. Et d’autres arguments peuvent être avancés.

Lorsqu’on regarde dans le moteur, l’approche arétaïque a le mérite de situer clairement là où ça se passe pour notre IA. Je veux dire par là qu’on peut facilement retracer l’origine des choix normatifs des agents moraux artificiels: leurs algorithmes ont appris à distinguer le bien du mal, le juste de l’injuste, à partir des modèles humains de vertus. On pourrait ajouter que, ultimement, c’est la sélection de ces personnes vertueuses qui garantit la « fiabilité normative » du projet. (D’où un autre défi de taille: comment établir un processus de sélection consensuel et transparent de ces bonnes personnes ?)

En bref, je suis agnostique sur le type de technologie à utiliser pour programmer une IA en général. Je conçois par exemple tout à fait que lorsqu’il s’agit de programmer des prises de décisions qui ne concernent que le domaine du prudentiel, soit l’intérêt personnel des gens, l’apprentissage par renforcement soit la clé. Hey Google, mets-moi un nouveau disque qui va me plaire! Mais lorsqu’on parle de prise de décision morale, lorsque vient le tour de Charlie, il y a de bonnes raisons de considérer un tel apprentissage supervisé à partir de modèles humains convenablement sélectionnés.

Cela répondrait en particulier au problème du tri des préférences auquel font face Russell et Hoang-El Mhamdi. En effet, on a du mal à imaginer que nos modèles de vertus plébisciteraient des spectacles sadiques. Une IA « vertueuse » se comporterait ainsi en accord avec nos intuitions morales les plus partagées.

Pour tout dire, je ne sais pas exactement dans quelle mesure le clivage entre apprentissage par renforcement et supervisé fait sens d’un point de vue moral. D’un point de vue technique, un modèle mixte est certainement envisageable. Mais il me semble que l’approche arétaïque est plus conservatrice puisque les robots vertueux restent dans un cadre strictement humain: ils n’ont pas vocation à maximiser quoi que ce soit. Ils cherchent seulement à ressembler aux personnes vertueuses que nous connaissons.

L’autre approche, en revanche, celle qui mobilise la volition cohérente extrapolée pourrait certainement produire des IA dont les décisions morales nous apparaîtraient plus surprenantes et contre-intuitives. Bien sûr, cela ne préjuge pas forcément de leur valeur morale ; après tout, nos intuitions peuvent nous égarer. Mais cela permet de prédire moins d’acceptabilité sociale pour ces IA que pour des robots se comportant grosso modo comme de bonnes personnes. Et ceci me semble tout particulièrement vrai lorsqu’on parle de robots sociaux.

Pour ne pas conclure, je voudrais simplement insister sur l’aspect embryonnaire de toutes ces réflexions sur les agents moraux artificiels. Le fabuleux chantier, qui est aussi bien celui de l’éthique de l’IA et des algorithmes, est très loin d’être achevé. On n’a pas fini d’en parler tant il va être difficile et passionnant. Mais surtout, il est important. Vous feriez bien d’y jeter un coup d’œil avant, pourquoi pas, de donner un coup de main.

Martin Gibert est chercheur en éthique de l’IA à l’Université de Montréal (rattaché à l’IVADO et au CRÉ). Page web personnelle.

--

--

Martin Gibert

Chercheur en éthique de l’intelligence artificielle (Université de Montréal)