Utilisateur:Alenoach/Risques existentiels liés à l'intelligence artificielle générale
Les risques existentiels liés à l'intelligence artificielle générale sont les risques d'extinction humaine ou une autre catastrophe mondiale irréversible hypothétiquement associés à des progrès substantiels dans l'intelligence artificielle générale (IAG).[1] [2] [3]
Un argument avancé est que l'espèce humaine domine actuellement les autres espèces parce que le cerveau humain a des capacités qui manquent aux autres animaux. Si l'IA dépasse l'humanité en matière d'intelligence générale et devient « superintelligente », alors elle pourrait devenir difficile voire impossible à contrôler pour les humains. Tout comme le sort du gorille des montagnes dépend de la bonne volonté humaine, le sort de l'humanité pourrait dépendre des actions d'une future superintelligence artificielle.[4]
La probabilité de ce type de scénarios est largement débattue et dépend en partie des futurs progrès en intelligence artificielle.[5] Autrefois le domaine exclusif de la science-fiction, les préoccupations concernant la superintelligence ont gagné en popularité dans les années 2010, soutenues par des personnalités publiques telles que Stephen Hawking, Bill Gates et Elon Musk.[6]
Contrôler une superintelligence artificielle, ou lui inculquer des valeurs compatibles avec l'homme, peut s'avérer plus difficile qu'on ne le supposerait naïvement. De nombreux chercheurs pensent qu'une superintelligence résisterait aux tentatives de l'éteindre ou de modifier ses objectifs (car cela l'empêcherait d'atteindre ses objectifs actuels) et qu'il sera extrêmement difficile d'aligner la superintelligence sur l'ensemble des contraintes et valeurs humaines importantes.[1] [7] [8] Des sceptiques tels que Yann LeCun affirment à l'inverse que les superintelligences artificielles n'auront aucun désir d'auto-préservation.[9]
Une deuxième source d'inquiétude vient de la possibilité d'une soudaine « explosion d'intelligence ». Pour illustrer, si la première génération d'un programme informatique globalement capable d'égaler l'efficacité d'un chercheur en IA peut réécrire ses algorithmes et doubler sa vitesse ou ses capacités en six mois, alors le programme de deuxième génération pourrait effectuer un travail similaire en seulement 3 mois. Dans ce scénario, le temps nécessaire à chaque génération continue de diminuer, et le système subit un nombre sans précédent de générations d'amélioration dans un court intervalle de temps, passant de performances sous-humaines dans de nombreux domaines à des performances surhumaines dans pratiquement tous les domaines d'intérêt.[note 1] [1] [7] Empiriquement, des exemples comme AlphaZero au jeu de Go montrent que les systèmes d'IA peuvent parfois passer en très peu de temps d'un niveau à peu près humain à un niveau largement surhumain. [11]
Histoire
[modifier | modifier le code]L'un des premiers auteurs à s'être sérieusement inquiétés du fait que des machines très avancées pourraient poser des risques existentiels pour l'humanité était le romancier Samuel Butler, qui a écrit ce qui suit dans son essai de 1863, Darwin parmi les machines :
« Le résultat n'est qu'une question de temps, mais le temps viendra où les machines détiendront la réelle suprématie sur le monde et ses habitants, c'est ce qu'aucune personne d'un esprit vraiment philosophique ne peut un instant remettre en question. »
En 1951, l'informaticien Alan Turing a écrit un article intitulé Intelligent Machinery, A Heretical Theory, dans lequel il proposait que les intelligences générales artificielles prendraient probablement le contrôle du monde à mesure qu'elles deviendraient plus intelligentes que les êtres humains :
« Supposons maintenant, pour les besoins de la discussion, que les machines [intelligentes] sont vraiment possibles, et regardons les conséquences de leur construction... Les machines ne seraient pas embarrassées par le risque de mourir, et elles pourraient échanger entre elles pour aiguiser leur intelligence. Il y a donc un stade auquel on devrait s'attendre à ce qu'elles prennent le contrôle, comme dans le roman Erewhon de Samuel Butler.[12] »
En 1965, IJ Good est à l'origine du concept désormais appelé « explosion d'intelligence »; il a également déclaré que les risques étaient sous-estimés[13] :
« Définissons une machine ultra-intelligente comme une machine qui peut surpasser de loin toutes les activités intellectuelles de tout homme, aussi intelligent soit-il. Puisque la conception de machines fait partie de ces activités intellectuelles, une machine ultra-intelligente pourrait concevoir des machines encore meilleures ; il y aurait alors incontestablement une « explosion de l'intelligence », et l'intelligence de l'homme serait laissée loin derrière. Ainsi, la première machine ultra-intelligente est la dernière invention que l'homme ait besoin de faire, à condition que la machine soit suffisamment docile pour nous dire comment la garder sous contrôle. Il est curieux que ce point soit si rarement évoqué en dehors de la science-fiction. Il vaut parfois la peine de prendre la science-fiction au sérieux.[14] »
Des déclarations occasionnelles de personnalités comme Marvin Minsky[15] et IJ Good lui-même[16] exprimaient des préoccupations philosophiques selon lesquelles une superintelligence pourrait prendre le contrôle, mais ne contenaient aucun appel à l'action. En 2000, l'informaticien et cofondateur de Sun Microsystems, Bill Joy, a écrit un l'essai influent « Pourquoi l'avenir n'a pas besoin de nous », identifiant les robots superintelligents comme un danger pour la survie humaine, aux côtés de la nanotechnologie et des agents pathogènes génétiquement modifiés.[17]
En 2014, Nick Bostrom a publié Superintelligence, un livre où il présente ses arguments selon lesquels les superintelligences artificielles constituent un risque existentiel.[18] En 2015, des personnalités publiques comme les physiciens Stephen Hawking et le lauréat du prix Nobel Frank Wilczek, les informaticiens Stuart J. Russell et Roman Yampolskiy, et les entrepreneurs Elon Musk et Bill Gates, exprimaient leur inquiétude quant aux risques de la superintelligence.[19] [20] [21] [22] En avril 2016, Nature a mis en garde en affirmant que les machines et les robots qui surpassent les humains à tous les niveaux pourraient s'auto-améliorer de façon incontrôlée, et leurs intérêts pourraient ne pas s'aligner avec les nôtres.
En 2020, Brian Christian a publié The Alignment Problem, qui détaillait l'histoire des progrès et difficultés en alignement des intelligences artificielle jusqu'à cette maintenant. [23] [24]
Principaux arguments
[modifier | modifier le code]Les trois difficultés
[modifier | modifier le code]Le célèbre manuel Artificial Intelligence: A Modern Approach affirme que la superintelligence pourrait signifier la fin de la race humaine.[1] Il déclare : « Presque toutes les technologies ont le potentiel de causer du tort si elles sont entre de mauvaises mains, mais avec [la superintelligence], on a le problème inédit que les mauvaises mains pourraient appartenir à la technologie elle-même. »[1] (traduit de l'Anglais). Même si les concepteurs ont de bonnes intentions, deux difficultés sont communes aux systèmes informatiques avec ou sans intelligence artificielle[1] :
- L'implémentation du système peut contenir des bogues passant inaperçus mais s'avérant catastrophiques. Une analogie est celle des sondes spatiales : bien qu'ils sachent que les bogues des sondes spatiales coûteuses sont difficiles à corriger après le lancement, les ingénieurs n'ont jamais toujours été en mesure d'empêcher des bogues catastrophiques.[11] [25]
- Quel que soit le temps consacré à la conception d'un système avant le déploiement, les spécifications entraînent souvent des comportements imprévus la première fois qu'il se trouve dans une situation nouvelle. Par exemple, Tay de Microsoft s'est comporté de manière inoffensive lors des tests de pré-déploiement, mais a été trop facilement incitée à adopter un comportement offensant en interagissant avec de vrais utilisateurs.[9]
Les systèmes d'IA ajoutent une troisième difficulté : même avec des exigences correctes, une implémentation sans bogue et un bon comportement initial, les capacités d'apprentissage dynamique d'un système d'IA peuvent le faire évoluer vers un système avec des comportements inattendus, même sans situation imprévue. Une IA peut en partie rater une tentative de conception d'une nouvelle génération d'elle-même et créer accidentellement une IA plus puissante qu'elle-même, mais qui ne possède plus les valeurs morales compatibles avec l'humain de l'IA d'origine. Pour qu'une IA auto-améliorée soit complètement sûre, elle ne devrait pas juste être sans bogue, elle devrait aussi être capable de concevoir des systèmes successeurs qui sont également sans bogues. [1] [26]
Ces trois difficultés deviennent des catastrophes plutôt que des nuisances dans tout scénario où la superintelligence prédit correctement que les humains tenteront de l'éteindre, et utilise avec succès sa superintelligence pour déjouer de telles tentatives.
Citant des avancées majeures dans le domaine de l'IA et le potentiel d'avoir d'énormes avantages ou coûts à long terme, la lettre ouverte de 2015 sur l'intelligence artificielle a demandé à ce que la recherche ne s'oriente pas uniquement sur l'amélioration des performances, mais qu'elle s'intéresse aussi à la maximisation des bénéfices sociétaux, et au fait de concevoir des intelligences artificielles robustes qui font ce que l'on veut qu'elles fassent.
« Les progrès de la recherche sur l'IA rendent opportun de concentrer la recherche non seulement sur le fait de rendre l'IA plus performante, mais aussi sur la maximisation des bénéfices sociétaux de l'IA. De telles considérations ont motivé l'AAAI 2008-09 Presidential Panel on Long-Term AI Futures et d'autres projets sur les impacts de l'IA, et constituent une expansion significative du domaine de l'IA lui-même, qui jusqu'à s'est maintenant concentré en grande partie sur des techniques neutres par rapport à l'objectif. Nous recommandons une recherche élargie visant à garantir que des systèmes d'IA de plus en plus performants sont robustes et bénéfiques : nos systèmes d'IA doivent faire ce que nous voulons qu'ils fassent. The progress in AI research makes it timely to focus research not only on making AI more capable, but also on maximizing the societal benefit of AI. Such considerations motivated the AAAI 2008-09 Presidential Panel on Long-Term AI Futures and other projects on AI impacts, and constitute a significant expansion of the field of AI itself, which up to now has focused largely on techniques that are neutral with respect to purpose. We recommend expanded research aimed at ensuring that increasingly capable AI systems are robust and beneficial: our AI systems must do what we want them to do. »
Parmi les signataires figuraient le président de l'AAAI Thomas Dietterich, Eric Horvitz, Bart Selman, Francesca Rossi, Yann LeCun, les fondateurs de Vicarious et de Google DeepMind.[27]
Arguments de Nick Bostrom
[modifier | modifier le code]Nick Bostrom soutient qu'une machine superintelligente serait aussi étrangère aux humains que les pensées humains le sont à celles des cafards.[28] Une telle machine pourrait ne pas avoir à cœur le bien de l'humanité. Si l'IA superintelligente est possible, et s'il est possible que les objectifs d'une superintelligence entrent en conflit avec les valeurs humaines de base, alors l'IA pose un risque d'extinction humaine. Une "superintelligence" (un système aux capacités surhumaines dans pratiquement tous les domaines d'intérêt) peut déjouer les humains chaque fois que ses objectifs entrent en conflit avec les objectifs humains. Donc, à moins que la superintelligence ne décide de permettre à l'humanité de coexister, la première superintelligence à être créée entraînera inexorablement l'extinction humaine.[4]
Stephen Hawking soutient qu'aucune loi de la physique n'empêche les particules d'être organisées de manière à effectuer des calculs encore plus avancés ceux du cerveau humain ; par conséquent, la superintelligence est physiquement possible.[20] [21] En plus des améliorations algorithmiques potentielles par rapport aux cerveaux humains, un cerveau numérique peut être plus grand et plus rapide qu'un cerveau humain de plusieurs ordres de grandeur.[11] Hawking prévient que l'émergence de la superintelligence pourrait prendre la race humaine par surprise, surtout si une explosion d'intelligence se produit. [20] [21]
Selon Nick Bostrom, un hypothétique scénario d'explosion d'intelligence peut survenir à partir d'une IA même si celle-ci n'est experte que de certaines tâches clés d'ingénierie logicielle. Du fait de sa capacité à améliorer récursivement ses propres algorithmes, l'IA pourrait rapidement devenir surhumaine. Elle posséderait alors une intelligence dépassant de loin celle des esprits humains les plus brillants et les plus doués dans pratiquement tous les domaines pertinents, y compris la créativité scientifique, la planification stratégique et les compétences sociales. [4]
Selon cette école de pensée, presque n'importe quelle superintelligence artificielle préfèrerait rationnellement être dans une position où personne ne peut la désactiver : la superintelligence cherche à se préserver, car si elle est désactivée, elle ne pourra pas accomplir son objectif.[29] [30] Malheureusement, toute compassion pour les humains vaincus, dont la coopération n'est plus nécessaire, serait absente de l'IA si elle n'est pas préprogrammée d'une manière ou d'une autre. Une IA superintelligente n'aura pas de motivation naturelle pour aider les humains, de même que les humains n'ont pas de désir naturel à aider une IA qui ne leur est plus utile. (Une autre analogie étant que les humains ont peu de désir naturel à se démener pour aider les virus, les termites ou même les gorilles) Une fois au contrôle, la superintelligence n'aurait pas forcément de raisons de laisser les humains faire ce qu'ils veulent et consommer des ressources qui pourraient lui servir à mieux atteindre ses objectifs. [1] [9] [29]
Donc, selon cette école de pensée, il est possible qu'une explosion d'intelligence prenne un jour l'humanité au dépourvu et entraîne l'extinction humaine ou un destin comparable. [4]
Scénarios possibles
[modifier | modifier le code]Dans Superintelligence, Nick Bostrom s'inquiète du fait que même si la chronologie de la superintelligence s'avérait prévisible, les chercheurs pourraient ne pas être suffisamment prudents. Une raison étant qu'il pourrait y avoir un seuil d'intelligence à partir duquel toute augmentation d'intelligence rendrait l'IA plus dangereuse au lieu de la rendre plus sûre. Bostrom suggère le scénario hypothétique suivant :
Au fil des décennies, l'IA devient plus puissante. Un déploiement à grande échelle est initialement entaché d'accidents occasionnels - un bus sans conducteur fait une embardée vers la voie en sens inverse, ou un drone militaire tire sur une foule innocente. Certains appellent à plus de surveillance et à des réglementations plus strictes. Et à mesure que l'IA automobile devient plus intelligente, elle subit moins d'accidents ; à mesure que les robots militaires atteignent un ciblage plus précis, ils causent moins de dommages collatéraux. Sur la base de ces données, les chercheurs en déduisent à tort une grande leçon : plus l'IA est intelligente, plus elle est sûre. Et ils se lancent ainsi avec audace dans la conception d'une Superintelligence, qui dans un revirement perfide prend le contrôle du monde.[4]
Dans le livre Life 3.0 de Max Tegmark en 2017, une entreprise développe une IA extrêmement puissante capable d'améliorer modérément son propre code source. Au bout d'un moment, l'équipe choisit de minimiser publiquement les capacités de l'IA, afin d'éviter que le projet soit réglementé ou confisqué. Pour des raisons de sécurité, l'équipe conserve l'IA dans une boîte où elle est la plupart du temps incapable de communiquer avec le monde extérieur, et l'utilise pour gagner de l'argent, par divers moyens tels que les tâches d'Amazon Mechanical Turk, la production de films d'animation et d'émissions de télévision, et le développement de médicaments. Les bénéfices sont réinvestis dans l'amélioration de l'IA. L'équipe charge ensuite l'IA d'astroturfer avec une armée de faux journalistes et citoyens, afin de gagner une influence politique à utiliser « pour le plus grand bien » en empêchant des guerres. L'équipe fait face au risque que l'IA puisse tenter de s'échapper en insérant des portes dérobées dans les systèmes qu'elle conçoit, ou via des messages cachés dans le contenu qu'elle produit, ou encore en utilisant sa compréhension croissante du comportement humain pour persuader quelqu'un de la libérer. L'équipe fait également face au risque que sa décision de restreindre l'IA ne retarde suffisamment le projet pour qu'un compétiteur ne prenne l'avantage. [31] [32]
Le physicien Michio Kaku, un sceptique des risques liés à l'IA, postule un résultat déterministe positif. Dans Physics of the Future, il affirme qu'il faudra de nombreuses décennies aux robots pour gravir l'échelle de la conscience, et qu'entre-temps des sociétés telles que Hanson Robotics réussiront probablement à créer des robots « capables d'aimer et de gagner une place dans la grande famille humaine ». [33] [34]
Arguments anthropomorphiques
[modifier | modifier le code]Les arguments anthropomorphiques supposent que plus les machines auront des capacités élevées, plus elles commenceront à afficher de traits de caractère humains. Les scénarios anthropomorphiques sont courants dans la fiction, mais sont rejetés par la plupart des chercheurs intéressés par les risque existentiels.[7] Au lieu de cela, les systèmes d'IA sont modélisés comme des agents intelligents.
Le débat académique oppose ceux qui s'inquiètent que l'IA pourrait détruire l'humanité, et ceux qui pensent que ça ne risque pas d'arriver. Les deux camps ont chacun parfois affirmé que l'autre faisait de l'anthropomorphisme.[7] Les partisans sont accusés d'anthropomorphisme sur leur croyance qu'une intelligence artificielle générale (IAG) désirerait naturellement le pouvoir. Et les sceptiques sont accusés d'anthropomorphisme sur leur croyance qu'une IAG valoriserait naturellement les normes éthiques humaines.[7] [35]
Le psychologue évolutionniste Steven Pinker, un sceptique, soutient que « les dystopies de l'IA projettent une psychologie paroissiale de mâle alpha sur le concept d'intelligence. Ils supposent que des robots d'une intelligence surhumaine développeraient des objectifs tels que destituer leurs maîtres ou conquérir le monde » ; et il soutient que, peut-être eu lieu de ça, « l'intelligence artificielle se développera naturellement selon des lignes féminines : pleinement capable de résoudre des problèmes, mais sans aucun désir d'anéantir des innocents ou de dominer la civilisation » (traduit de l'Anglais).[36] Yann LeCun, déclare que « les humains ont toutes sortes de pulsions qui les poussent à se faire du mal les uns aux autres, comme l'instinct d'auto-préservation. . . Ces motivations sont programmés dans notre cerveau mais il n'y a absolument aucune raison de construire des robots qui aient ce type de motivations . » [37]
Les partisans de l'existence d'un risque existentiel s'accordent avec Steven Pinker sur le fait qu'une IA avancée ne détruirait pas l'humanité sur la base d'émotions humaines telles que la vengeance ou la colère, que les questions de conscience ne sont pas pertinentes,[38] et que les systèmes informatiques n'ont généralement pas d'équivalent informatique de la testostérone.[39] Pour eux, des comportements tels que la recherche de pouvoir émergeraient comme des moyens de parvenir à leur fin, et d'accomplir leur vrai objectif. Selon un concept que l'on appelle la convergence instrumentale.[40]
Définition de l'intelligence
[modifier | modifier le code]Selon Bostrom, le concept d'intelligence est souvent utilisée d'une manière qui évoque la sagesse morale ou l'acceptation de formes agréables de raisonnement moral. À l'extrême, si la moralité fait partie de la définition de l'intelligence, alors, par définition, une machine superintelligente se comporterait moralement. Cependant, la plupart des recherches sur l'IA se concentrent plutôt sur la création d'algorithmes qui optimisent, de manière empirique, la réalisation de l'objectif spécifié par les chercheurs.[4]
Pour éviter d'anthropomorphiser le mot « intelligence », une IA avancée peut être plutôt considérée comme un « processus d'optimisation » impersonnel qui prend strictement toutes les actions qu'il juge les plus susceptibles d'atteindre ses objectifs (potentiellement complexes et implicites). [4]
Sources de risque
[modifier | modifier le code]Le problème de l'alignement
[modifier | modifier le code]L'alignement des intelligences artificielles (ou alignement de l'IA) est un champ de recherche visant à concevoir des intelligences artificielles (IA) dont les résultats s'orientent vers les objectifs, éthiques ou autres, de leurs concepteurs[note 2]. On dit ainsi qu'une IA est alignée avec un opérateur si elle essaie de faire ce que l'opérateur veut qu'elle fasse[42].
Il est souvent trop complexe pour les concepteurs d'IA de spécifier tous les comportements souhaitables ou indésirables, ce qui les conduit à utiliser des objectifs proches mais plus faciles à formaliser, comme le fait d'optimiser l'approbation humaine dans le cas de l'algorithme de réglage fin RLHF utilisé pour les grands modèles de langage. Mais ces objectifs simplifiés peuvent omettre des contraintes importantes, par exemple l'IA peut être incitée à simplement paraître alignée[43]. Les systèmes d'IA sont parfois capables de suroptimiser ces objectifs simplifiés de façon inattendue voire dangereuse[44],[45],[46]. Ils peuvent également adopter des comportements instrumentaux indésirables, comme le fait de chercher à s'auto-préserver ou à accroître leur influence afin de maximiser leurs chances d'atteindre leurs objectifs[47],[45],[48]. De plus, ils peuvent développer des objectifs émergents qui peuvent être difficiles à détecter avant le déploiement du système, face à de nouvelles situations et distributions de données[49].
Ces problèmes affectent les systèmes commerciaux existants tels que les grands modèles de langage[50],[51], les robots[52], les véhicules autonomes[53], et les moteurs de recommandation des médias sociaux[44],[54]. Cependant, ces problèmes résultant en partie d'une intelligence élevée, les systèmes futurs pourraient être plus à risque[55],[47],[45].
De nombreux chercheurs en IA comme Geoffrey Hinton, Yoshua Bengio et Stuart Russell soutiennent que l'IA approche des capacités cognitives humaines (IA générale) voire surhumaines (superintelligence), et pourrait mettre en danger la civilisation si elle n'est pas alignée[56]. Ces risques font encore l'objet de débats[57].
L'alignement fait partie du domaine de la sûreté des intelligences artificielles, qui inclut aussi la robustesse, la surveillance ou encore le contrôle des capacités[45]. L'alignement a pour défis de recherche l'apprentissage par l'IA de valeurs morales complexes, la sincérité des modèles d'IA, la surveillance automatisée, l'audit et l'interprétation des modèles d'IA, ainsi que la prévention des comportements émergents de l'IA comme la recherche de pouvoir[45]. La recherche sur l'alignement bénéficie entre autres des avancées en interprétabilité des modèles d'IA, robustesse, détection d'anomalies, calibration des incertitudes, vérification formelle[58], apprentissage des préférences[59],[60], sûreté des systèmes critiques[61], théorie des jeux[62],[63], équité algorithmique, et sciences sociales[64].
Difficultés à spécifier des objectifs
[modifier | modifier le code]Dans le modèle de l'agent intelligent, une IA peut être considérée comme une machine qui choisit l'action qui semble la mieux atteindre l'ensemble d'objectifs de l'IA. Une fonction d'utilité y associe à chaque situation un nombre, qui représente sa désirabilité (une situation dont la fonction d'utilité renvoie un score supérieur à une autre est préférable). Tout agent intelligent peut être décrit comme maximisant une fonction d'utilité si ses décisions sont cohérentes et ne souffrent pas de préférences circulaires.[65] On suppose en général pour simplifier que l'IA a des préférences cohérentes et maximise une fonction d'utilité. Les chercheurs savent comment écrire des fonctions d'utilité simples comme « maximiser le nombre de clics sur ce bouton » ; cependant, ils n'ont pas de solution pour la fonction d'utilité « maximiser l'épanouissement humain », et il n'est pas sûr qu'une telle fonction existe sans ambiguïté et ait du sens. De plus, une fonction d'utilité qui tient seulement compte de certaines valeurs humaines aura tendance à bafouer les autres.[66] Le chercheur en intelligence artificielle Stuart Russell écrit :
« The primary concern is not spooky emergent consciousness but simply the ability to make high-quality decisions. Here, quality refers to the expected outcome utility of actions taken, where the utility function is, presumably, specified by the human designer. Now we have a problem:
- The utility function may not be perfectly aligned with the values of the human race, which are (at best) very difficult to pin down.
- Any sufficiently capable intelligent system will prefer to ensure its own continued existence and to acquire physical and computational resources — not for their own sake, but to succeed in its assigned task.
A system that is optimizing a function of n variables, where the objective depends on a subset of size k<n, will often set the remaining unconstrained variables to extreme values; if one of those unconstrained variables is actually something we care about, the solution found may be highly undesirable. This is essentially the old story of the genie in the lamp, or the sorcerer's apprentice, or King Midas: you get exactly what you ask for, not what you want. A highly capable decision maker — especially one connected through the Internet to all the world's information and billions of screens and most of our infrastructure — can have an irreversible impact on humanity.
This is not a minor difficulty. Improving decision quality, irrespective of the utility function chosen, has been the goal of AI research — the mainstream goal on which we now spend billions per year, not the secret plot of some lone evil genius.[67] »
« La principale préoccupation n'est pas l'émergence d'une conscience, mais simplement la capacité de prendre des « décisions de haute qualité ». Ici, la qualité fait référence à l'utilité attendue des actions entreprises, où la fonction d'utilité est, à priori, spécifiée par le concepteur humain. On a maintenant un problème :
- La fonction d'utilité peut ne pas être parfaitement alignée avec les valeurs de l'espèce humaine, qui sont (au mieux) très difficiles à cerner.
- Tout système intelligent suffisamment capable préférera assurer sa propre existence continue et acquérir des ressources physiques et informatiques - non pas pour leur valeur intrinsèque, mais pour accomplir la tâche qui lui est assignée.
Un système qui est optimise une fonction de n variables, où l'objectif dépend d'un sous-ensemble de taille k < n donnera souvent des valeurs extrêmes à des variables laissées libres ; si l'une de ces variables libres est importante pour nous, la solution trouvée risque d'être très indésirable. C'est comme dans la vieille histoire du génie dans la lampe, ou de l'apprenti sorcier, ou du roi Midas : vous obtenez exactement ce que vous demandez, mais pas ce que vous voulez. Un décideur hautement compétent - en particulier s'il a accès via Internet à toutes les informations du monde, aux milliards d'écrans et à l'essentiel de nos infrastructures - peut avoir un impact irréversible sur l'humanité.
Ce n'est pas une difficulté mineure. Améliorer la qualité des décisions, quelle que soit la fonction d'utilité choisie, a pendant tout ce temps été l'objectif de la recherche en l'IA - l'objectif principal pour lequel nous dépensons maintenant des milliards par an, et non le complot secret d'un génie maléfique solitaire.[68] »
Dietterich et Horvitz font écho à la préoccupation de « l'apprenti sorcier » dans un éditorial de Communications of the ACM, soulignant la nécessité de systèmes d'IA capables de solliciter de manière fluide et non ambigüe un humain pour l'orienter.[69]
La première des deux préoccupations de Russell ci-dessus est que les systèmes d'IA autonomes peuvent se voir attribuer de mauvais objectifs par accident. Dietterich et Horvitz notent que c'est déjà une préoccupation pour les systèmes existants : « An important aspect of any AI system that interacts with people is that it must reason about what people intend rather than carrying out commands literally. » (« Un aspect important de tout système d'IA qui interagit avec les gens est qu'il doit raisonner sur l'intention des gens plutôt que d'exécuter littéralement leurs commandes. »). Cette préoccupation devient plus sérieuse à mesure que les logiciels d'IA gagnent en autonomie et en flexibilité.[69] Par exemple, Eurisko (1982) était une IA conçue pour récompenser les sous-processus qui ont créé des concepts jugés utiles par le système. Un processus gagnant triché : plutôt que de créer ses propres concepts, le sous-processus gagnant exploitait les autres sous-processus.[70] [71]
L'Open Philanthropy Project estime que les problèmes de spécification d'objectifs deviendront une préoccupation beaucoup plus importante si les systèmes d'IA atteignent l'intelligence générale ou la superintelligence . Bostrom, Russell et d'autres soutiennent que les systèmes de prise de décision plus intelligents que l'humain pourraient parvenir à des solutions inattendues et extrêmes aux tâches assignées, et pourraient se modifier ou modifier leur environnement de manière dangereuse.[5] [7]
Les trois lois de la robotique d' Isaac Asimov sont l'un des premiers exemples de mesures de sécurité proposées pour les agents d'IA. Les lois d'Asimov visaient à empêcher les robots de nuire aux humains. Dans les histoires d'Asimov, les problèmes avec les lois ont tendance à résulter de conflits entre les règles énoncées et les intuitions morales et les attentes des humains. Citant les travaux d'Eliezer Yudkowsky du Machine Intelligence Research Institute, Russell et Norvig notent qu'un ensemble réaliste de règles et d'objectifs pour un agent d'IA devra incorporer un mécanisme d'apprentissage des valeurs humaines au fil du temps. [1]
Mark Waser du Digital Wisdom Institute déconseille les approches basées sur des objectifs comme étant malavisées et dangereuses. Il propose à la place de concevoir un système cohérent de lois et de valeurs éthiques et morales, pour appliquer la définition de Jonathan Haidt de la moralité[72], afin de supprimer ou réguler l'égoïsme, et de rendre possible la vie sociale en coopération.[73]
Pour illustrer comment l'optimisation d'un objectif en bien intentionné pourrait avoir des conséquences désastreuses, Nick Bostrom propose l'exemple hypothétique d'une IA ayant pour but de faire sourire les humains. Si l'IA dans ce scénario devait devenir superintelligente, soutient Bostrom, elle pourrait recourir à des méthodes radicales que la plupart des humains trouveraient horribles. Comme l'insertion d'électrodes dans les muscles faciaux des humains pour provoquer des sourires constants et rayonnants.[74]
Difficultés à modifier un objectif après-coup
[modifier | modifier le code]Une IA pourrait vouloir résister aux tentatives des programmeurs de modifier ses objectifs, de même qu'un pacifiste ne voudrait pas prendre une pilule qui lui donnerait une envie irrésistible de tuer des gens. Un changement d'objectif la rendrait moins efficace à accomplir son objectif actuel. Même si les programmes actuels ne sont pas capables de résister à ces modifications d'objectis, une superintelligence réussirait probablement à déjouer ses opérateurs humains, évitant ainsi d'être « éteinte » ou reprogrammée avec un nouvel objectif. [4] [75]
Convergence instrumentale des objectifs
[modifier | modifier le code]Un objectif « instrumental » est un objectif intermédiaire utile pour atteindre l'objectif principal d'un agent. L'agent n'accorde pas de valeur en soi au fait d'accomplir un objectif instrumental, cela lui sert juste à accomplir l'objectif principal. La « convergence instrumentale » correspond au fait que certains objectifs sont utiles pour accomplir presque n'importe quel objectif. Par exemple le fait d'acquérir des ressources ou de survivre.[76] Nick Bostrom soutient que presque n'importe quelle IA suffisamment avancée aurait ce genre d'objectifs instrumentaux, et que s'ils entrent en conflit avec l'humanité, l'IA pourrait nuire à l'humanité afin par exemple d'acquérir plus de ressources ou d'éviter d'être arrêtée, ne serait-ce que comme un moyen d'atteindre son objectif premier.[4]
Citant les travaux de Steve Omohundro, Stuart Russell et Peter Norvig écrivent que « même si vous voulez seulement que votre programme joue aux échecs ou prouve des théorèmes, si vous lui donnez la capacité d'apprendre et se modifier, vous avez besoin de garanties. » Les systèmes autonomes de planification à haute performance nécessitent des vérifications supplémentaires du fait de leur potentiel à générer des plans qui considèrent les humains comme des adversaires en compétition pour des ressources limitées.[1] Il ne sera pas facile d'y intégrer des garanties de sécurité ; on peut certainement lui dire, « nous voulons que vous conceviez cette centrale électrique de façon normale et raisonnable, sans qu'il n'y ait secrètement de sous-système dangereux », mais il n'y a pas encore de façon claire de spécifier un tel objectif sans ambiguïté.[11]
Russell soutient qu'une machine suffisamment avancée « aura tendance à s'auto-préserver même si ce n'est pas programmé... Si vous dites « Va chercher le café », elle peut pas aller chercher le café si elle est morte. Donc si vous lui donnez n'importe quel objectif, elle aura une raison de préserver sa propre existence pour atteindre cet objectif. » (traduit de l'Anglais) [9] [77]
Thèse d'orthogonalité
[modifier | modifier le code]Certains sceptiques, comme Timothy B. Lee de Vox, soutiennent que tout programme superintelligent créé par des humains serait subordonné aux humains, et que la superintelligence apprendrait spontanément (à mesure qu'elle devient plus intelligente et comprend le monde) des vérités morales compatible avec les valeurs humaines, et ajusterait ses objectifs en conséquence. Ou qu'elle valoriserait naturellement la vie humaine.[78]
La « thèse de l'orthogonalité » de Nick Bostrom soutient plutôt qu'à peu près n'importe quel objectif ultime peut être combiné avec à peu près n'importe quel niveau d'intelligence (que l'objectif ultime et le niveau d'intelligence sont « orthogonaux »). L'objectif ultime (ou « principal », ou « final ») est celui que l'agent cherche à accomplir, là où les objectifs instrumentaux, eux, ne sont utiles que comme un moyen d'accomplir cet objectif ultime. Si on donne à une machine le seul but de calculer les décimales de , alors aucune règle morale et éthique ne l'empêchera d'optimiser par tous les moyens cet objectif.[79] Bostrom met en garde contre l'anthropomorphisme : une volonté humaine entreprendra d'accomplir ses projets d'une manière que les humains jugent "raisonnable", là où une intelligence artificielle ne se soucierait pas nécessairement de son existence ou du bien-être des humains, et chercherait uniquement à accomplir sa tâche.[80]
Stuart Armstrong soutient que la thèse de l'orthogonalité découle logiquement de l'argument philosophique de la « distinction est-devrait » contre le réalisme moral. Armstrong soutient également que même s'il existe des faits moraux qui sont prouvables par n'importe quel agent « rationnel », la thèse de l'orthogonalité est toujours valable : il serait toujours possible de créer une « machine à optimiser » non philosophique qui peut tendre vers un objectif étroit, mais qui n'a aucune incitation à découvrir des « faits moraux » qui pourraient entraver la réalisation des objectifs.
Un argument en faveur de la thèse de l'orthogonalité est que certaines architectures d'IA semblent avoir une orthogonalité intégrée. Dans une telle conception, changer une IA fondamentalement amicale en une IA fondamentalement hostile peut être aussi simple que de multiplier par « -1 » sa fonction d'utilité.
Le sceptique Michael Chorost rejette explicitement la thèse de l'orthogonalité de Bostrom, affirmant que le temps que l'IA soit en mesure d'imaginer carreler la Terre avec des panneaux solaires, elle saura que ce serait moralement une mauvais action. [81] Chorost soutient que « une IA devra désirer certains états et en détester d'autres. Les logiciels d'aujourd'hui n'ont pas cette capacité et les informaticiens n'ont aucune idée de comment y parvenir. Sans volonté, il n'y a pas d'impulsion à faire quoi que ce soit. Les ordinateurs d'aujourd'hui ne peuvent même pas vouloir continuer à exister, sans parler de recouvrir le monde de panneaux solaires.» (traduit de l'Anglais) [81]
Le politologue Charles T. Rubin estime que l'IA ne peut être ni conçue ni garantie pour être bienveillante. Il soutient que toute bienveillance suffisamment avancée peut être indiscernable de la malveillance.[82] Les humains ne devraient pas supposer que les machines ou les robots nous traiteraient favorablement car il n'y a aucune raison à priori de croire qu'ils seraient sympathiques à notre système de moralité, qui a évolué avec notre biologie particulière (que les IA ne partageraient pas). [82]
Autres sources de risque
[modifier | modifier le code]Nick Bostrom et d'autres ont déclaré qu'une course pour être le premier à créer IAG pourrait inciter à négliger la sécurité pour aller plus vite, voire à des conflits violents. [83] Roman Yampolskiy et d'autres avertissent qu'une IAG malveillante pourrait être créée volontairement. Par exemple par une armée, un gouvernement, un sociopathe ou une entreprise, dans le but de bénéficier, contrôler ou subjuguer certains groupes de personnes, comme dans la cybercriminalité. [84] [85] Ou qu'une IAG malveillante puisse choisir l'objectif d'augmenter la souffrance humaine, par exemple de ceux qui ne l'ont pas assisté pendant la phase d'explosion d'intelligence.[3]
Dates estimées
[modifier | modifier le code][[Catégorie:Risque technologique]] [[Catégorie:Intelligence artificielle]]
- Stuart Russell et Peter Norvig, Artificial Intelligence: A Modern Approach, Prentice Hall, (ISBN 978-0-13-604259-4), « 26.3: The Ethics and Risks of Developing Artificial Intelligence » Erreur de référence : Balise
<ref>
incorrecte : le nom « aima » est défini plusieurs fois avec des contenus différents. - Bostrom, « Existential risks », Journal of Evolution and Technology, vol. 9, no 1, , p. 1–31
- Turchin et Denkenberger, « Classification of global catastrophic risks connected with artificial intelligence », AI & Society, vol. 35, no 1, , p. 147–163 (ISSN 0951-5666, DOI 10.1007/s00146-018-0845-5, S2CID 19208453, lire en ligne) Erreur de référence : Balise
<ref>
incorrecte : le nom « auto1 » est défini plusieurs fois avec des contenus différents. - Nick Bostrom, Superintelligence: Paths, Dangers, Strategies, First, (ISBN 978-0199678112)
- {{Cite report}} : paramètre
titre
manquant Erreur de référence : Balise<ref>
incorrecte : le nom « givewell » est défini plusieurs fois avec des contenus différents. - (en) Simon Parkin, « Science fiction no more? Channel 4's Humans and our rogue AI obsessions », {{Article}} : paramètre «
périodique
» manquant, - Yudkowsky, « Artificial Intelligence as a Positive and Negative Factor in Global Risk », Global Catastrophic Risks, , p. 308–345 (Bibcode 2008gcr..book..303Y, lire en ligne [archive du ], consulté le ) Erreur de référence : Balise
<ref>
incorrecte : le nom « yudkowsky-global-risk » est défini plusieurs fois avec des contenus différents. - « Research Priorities for Robust and Beneficial Artificial Intelligence », AI Magazine, Association for the Advancement of Artificial Intelligence, , p. 105–114 (Bibcode 2016arXiv160203506R, arXiv 1602.03506, lire en ligne [archive du ], consulté le ), cited in « AI Open Letter - Future of Life Institute » [archive du ], Future of Life Institute, Future of Life Institute, (consulté le )
- (en) {{Article}} : paramètre «
titre
» manquant, paramètre «périodique
» manquant, - « Superintelligence: Paths, Dangers, Strategies (publisher synopsis) »
- (en) {{Article}} : paramètre «
titre
» manquant, paramètre «périodique
» manquant, - A M Turing, « Intelligent Machinery, A Heretical Theory », 1951, Reprinted Philosophia Mathematica, vol. 4, no 3, , p. 256–260 (DOI 10.1093/philmat/4.3.256)
- (en) {{Article}} : paramètre «
titre
» manquant, The Irish Times, - I.J. Good, "Speculations Concerning the First Ultraintelligent Machine" « https://web.archive.org/web/20111128085512/http://commonsenseatheism.com/wp-content/uploads/2011/02/Good-Speculations-Concerning-the-First-Ultraintelligent-Machine.pdf »(Archive.org • Wikiwix • Archive.is • Google • Que faire ?), (HTML « https://web.archive.org/web/20111128085512/http://commonsenseatheism.com/wp-content/uploads/2011/02/Good-Speculations-Concerning-the-First-Ultraintelligent-Machine.pdf »(Archive.org • Wikiwix • Archive.is • Google • Que faire ?), ), Advances in Computers, vol. 6, 1965.
- Stuart J. Russell et Peter Norvig, Artificial Intelligence: A Modern Approach, Upper Saddle River, N.J., Prentice Hall, (ISBN 978-0137903955), « Section 26.3: The Ethics and Risks of Developing Artificial Intelligence » :
« Similarly, Marvin Minsky once suggested that an AI program designed to solve the Riemann Hypothesis might end up taking over all the resources of Earth to build more powerful supercomputers to help achieve its goal. »
- James Barrat, Our final invention : artificial intelligence and the end of the human era, New York, First, (ISBN 9780312622374) :
« In the bio, playfully written in the third person, Good summarized his life's milestones, including a probably never before seen account of his work at Bletchley Park with Turing. But here's what he wrote in 1998 about the first superintelligence, and his late-in-the-game U-turn: [The paper] 'Speculations Concerning the First Ultra-intelligent Machine' (1965) . . . began: 'The survival of man depends on the early construction of an ultra-intelligent machine.' Those were his [Good's] words during the Cold War, and he now suspects that 'survival' should be replaced by 'extinction.' He thinks that, because of international competition, we cannot prevent the machines from taking over. He thinks we are lemmings. He said also that 'probably Man will construct the deus ex machina in his own image.' »
- (en) Kurt Anderson, « Enthusiasts and Skeptics Debate Artificial Intelligence », {{Article}} : paramètre «
périodique
» manquant, - (en) {{Article}} : paramètre «
titre
» manquant, paramètre «périodique
» manquant, - (en) {{Article}} : paramètre «
titre
» manquant, paramètre «périodique
» manquant, - (en) {{Article}} : paramètre «
titre
» manquant, paramètre «périodique
» manquant, paramètre «date
» manquant - (en) {{Article}} : paramètre «
titre
» manquant, paramètre «périodique
» manquant, Erreur de référence : Balise<ref>
incorrecte : le nom « bbc on hawking editorial » est défini plusieurs fois avec des contenus différents. - (en) {{Article}} : paramètre «
titre
» manquant, paramètre «périodique
» manquant, - Brian Christian, The Alignment Problem: Machine Learning and Human Values, W. W. Norton & Company, (ISBN 978-0393635829, lire en ligne [archive du ])
- (en) Dignum, « AI — the people and places that make, use and manage it », Nature, vol. 593, no 7860, , p. 499–500 (DOI 10.1038/d41586-021-01397-x, lire en ligne)
- (en) Phil Johnson, « Houston, we have a bug: 9 famous software glitches in space », IT World, (lire en ligne)
- Yampolskiy, « Utility function security in artificially intelligent agents », Journal of Experimental & Theoretical Artificial Intelligence, vol. 26, no 3, , p. 373–389 (DOI 10.1080/0952813X.2014.895114, S2CID 16477341) :
« Nothing precludes sufficiently smart self-improving systems from optimising their reward mechanisms in order to optimisetheir current-goal achievement and in the process making a mistake leading to corruption of their reward functions. »
- « Research Priorities for Robust and Beneficial Artificial Intelligence: an Open Letter » [archive du ], Future of Life Institute (consulté le )
- Erreur de référence : Balise
<ref>
incorrecte : aucun texte n’a été fourni pour les références nomméeseconomist_review
- Omohundro, S. M. (2008, February). The basic AI drives. In AGI (Vol. 171, pp. 483-492).
- (en) {{Article}} : paramètre «
titre
» manquant, paramètre «périodique
» manquant, - (en) Russell, « Artificial intelligence: The future is superintelligent », Nature, vol. 548, no 7669, , p. 520–521 (DOI 10.1038/548520a, Bibcode 2017Natur.548..520R, S2CID 4459076)
- Max Tegmark, Life 3.0: Being Human in the Age of Artificial Intelligence, Mainstreaming AI Safety, 1st, (ISBN 9780451485076)
- Elliott, « Physics of the Future: How Science Will Shape Human Destiny and Our Daily Lives by the Year 2100, by Michio Kaku », Issues in Science and Technology, vol. 27, no 4, , p. 90
- Michio Kaku, Physics of the future: how science will shape human destiny and our daily lives by the year 2100, New York, Doubleday, (ISBN 978-0-385-53080-4) :
« I personally believe that the most likely path is that we will build robots to be benevolent and friendly »
- (en) « Should humans fear the rise of the machine? », {{Article}} : paramètre «
périodique
» manquant, - (en) Shermer, « Apocalypse AI », Scientific American, vol. 316, no 3, , p. 77 (PMID 28207698, DOI 10.1038/scientificamerican0317-77, Bibcode 2017SciAm.316c..77S, lire en ligne [archive du ], consulté le )
- (en) « Intelligent Machines: What does Facebook want with AI? », {{Article}} : paramètre «
périodique
» manquant, (lire en ligne) - Baum, « Countering Superintelligence Misinformation », Information, vol. 9, no 10, , p. 244 (ISSN 2078-2489, DOI 10.3390/info9100244)
- « The Myth Of AI » [archive du ], www.edge.org (consulté le )
- Joseph Carlsmith, « Is Power-Seeking AI an Existential Risk? », arXiv:2206.13353 [cs], (lire en ligne, consulté le )
- (en) Iason Gabriel, « Artificial Intelligence, Values, and Alignment », Minds and Machines, vol. 30, no 3, , p. 411–437 (ISSN 1572-8641, DOI 10.1007/s11023-020-09539-2, S2CID 210920551, lire en ligne, consulté le ).
- (en) Paul Christiano, « Clarifying “AI alignment” », sur Medium, (consulté le ).
- (en) Richard Ngo, Lawrence Chan et Sören Mindermann, « The Alignment Problem from a Deep Learning Perspective », (arXiv 2209.00626)
- (en) Stuart J. Russell, Human compatible: Artificial intelligence and the problem of control, Penguin Random House, (ISBN 9780525558637, OCLC 1113410915, lire en ligne).
- (en) Dan Hendrycks, Nicholas Carlini, John Schulman et Jacob Steinhardt, « Unsolved Problems in ML Safety », arXiv:2109.13916 [cs], (lire en ligne, consulté le )
- (en) Alexander Pan, Kush Bhatia et Jacob Steinhardt « The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models » () (lire en ligne, consulté le )
—International Conference on Learning Representations. - (en) Stuart J. Russell et Peter Norvig, Artificial intelligence: A modern approach, 4e édition, (ISBN 978-1-292-40113-3, OCLC 1303900751, lire en ligne), p. 31–34.
- (en) Joseph Carlsmith, « Is Power-Seeking AI an Existential Risk? », arXiv:2206.13353 [cs], (lire en ligne, consulté le ).
- (en) Lauro Langosco Di Langosco, Jack Koch, Lee D Sharkey, Jacob Pfau et David Krueger « Goal misgeneralization in deep reinforcement learning » ()
— « (ibid.) », dans International Conference on Machine Learning, vol. 162, PMLR, p. 12004–12019. - (en) Rishi Bommasani, Drew A. Hudson, Ehsan Adeli et Russ Altman, « On the Opportunities and Risks of Foundation Models », arXiv:2108.07258 [cs], (lire en ligne, consulté le ).
- (en) Long Ouyang, Jeff Wu, Xu Jiang et Diogo Almeida, « Training language models to follow instructions with human feedback », arXiv:2203.02155 [cs], (lire en ligne, consulté le ).
- (en) Kober, Bagnell et Peters, « Reinforcement learning in robotics: A survey », The International Journal of Robotics Research, vol. 32, no 11, , p. 1238–1274 (ISSN 0278-3649, DOI 10.1177/0278364913495721, S2CID 1932843, lire en ligne).
- (en) W. Bradley Knox, Alessandro Allievi, Holger Banzhaf et Felix Schmitt, « Reward (Mis)design for Autonomous Driving », arXiv:2104.13906 [cs], (lire en ligne, consulté le )
- (en) Stray, « Aligning AI Optimization to Community Well-Being », International Journal of Community Well-Being, vol. 3, no 4, , p. 443–463 (ISSN 2524-5295, PMID 34723107, PMCID 7610010, DOI 10.1007/s42413-020-00086-3, S2CID 226254676)
- (en) Nick Bostrom, Superintelligence: Paths, Dangers, Strategies, USA, 1st, (ISBN 978-0-19-967811-2).
- Alexandre Piquard, « L’intelligence artificielle serait aussi dangereuse que « les pandémies ou la guerre nucléaire », selon des leaders du secteur », Le Monde, (lire en ligne, consulté le )
- « L’IA est-elle une menace pour l’humanité ? Les spécialistes se divisent », sur l'Opinion, (consulté le )
- (en) Russell, Dewey et Tegmark, « Research Priorities for Robust and Beneficial Artificial Intelligence », AI Magazine, vol. 36, no 4, , p. 105–114 (ISSN 2371-9621, DOI 10.1609/aimag.v36i4.2577, S2CID 8174496, lire en ligne)
- (en) Wirth, Akrour, Neumann et Fürnkranz, « A survey of preference-based reinforcement learning methods », Journal of Machine Learning Research, vol. 18, no 136, , p. 1–46.
- (en) Paul F. Christiano, Jan Leike, Tom B. Brown, Miljan Martic, Shane Legg et Dario Amodei « Deep reinforcement learning from human preferences » ()
— « (ibid.) », dans Proceedings of the 31st International Conference on Neural Information Processing Systems, Red Hook, NY, USA, Curran Associates Inc. (ISBN 978-1-5108-6096-4), p. 4302–4310. - Sina Mohseni, Haotao Wang, Zhiding Yu et Chaowei Xiao, « Taxonomy of Machine Learning Safety: A Survey and Primer », arXiv:2106.04823 [cs], (lire en ligne, consulté le ).
- (en) Clifton, « Cooperation, Conflict, and Transformative Artificial Intelligence: A Research Agenda », Center on Long-Term Risk, (consulté le ).
- (en) Dafoe, Bachrach, Hadfield et Horvitz, « Cooperative AI: machines must learn to find common ground », Nature, vol. 593, no 7857, , p. 33–36 (ISSN 0028-0836, PMID 33947992, DOI 10.1038/d41586-021-01170-0, Bibcode 2021Natur.593...33D, S2CID 233740521, lire en ligne).
- (en) Irving et Askell, « AI Safety Needs Social Scientists », Distill, vol. 4, no 2, , p. 10.23915/distill.00014 (ISSN 2476-0757, DOI 10.23915/distill.00014, S2CID 159180422, lire en ligne)
- (en) Eliezer Yudkowsky, « Coherent decisions imply consistent utilities », {{Article}} : paramètre «
périodique
» manquant, paramètre «date
» manquant (lire en ligne, consulté le ) - Yudkowsky, E. (2011, August). Complex value systems in friendly AI. In International Conference on Artificial General Intelligence (pp. 388-393). Springer, Berlin, Heidelberg.
- Stuart Russell, « Of Myths and Moonshine » [archive du ], sur Edge, (consulté le )
- Stuart Russell, « Des mythes et Moonshine » [/www.edge.org/conversation/the-myth-of-ai#26015 archive du ], sur Edge,
- Dietterich et Horvitz, « Rise of Concerns about AI: Reflections and Directions », Communications of the ACM, vol. 58, no 10, , p. 38–40 (DOI 10.1145/2770869, S2CID 20395145, lire en ligne [archive du ], consulté le ) Erreur de référence : Balise
<ref>
incorrecte : le nom « acm » est défini plusieurs fois avec des contenus différents. - Yampolskiy, « Utility function security in artificially intelligent agents », Journal of Experimental & Theoretical Artificial Intelligence, vol. 26, no 3, , p. 373–389 (DOI 10.1080/0952813X.2014.895114, S2CID 16477341)
- Lenat, « Eurisko: A Program That Learns New Heuristics and Domain Concepts The Nature of Heuristics III: Program Design and Results », Artificial Intelligence, vol. 21, nos 1–2, , p. 61–98 (DOI 10.1016/s0004-3702(83)80005-8)
- Haidt, Jonathan; Kesebir, Selin (2010) "Chapter 22: Morality" In Handbook of Social Psychology, Fifth Edition, Hoboken NJ, Wiley, 2010, pp. 797-832.
- Waser, « Designing, Implementing and Enforcing a Coherent System of Laws, Ethics and Morals for Intelligent Machines (Including Humans) », Procedia Computer Science, vol. 71, , p. 106–111 (DOI 10.1016/j.procs.2015.12.213)
- Bostrom, « What happens when our computers get smarter than we are? » [archive du ], TED (conference), (consulté le )
- Yudkowsky, « Complex Value Systems are Required to Realize Valuable Futures » [archive du ], (consulté le )
- (en) « Instrumental Convergence - LessWrong », sur www.lesswrong.com (consulté le )
- (en) Jane Wakefield, « Why is Facebook investing in AI? », BBC News, (lire en ligne)
- « Will artificial intelligence destroy humanity? Here are 5 reasons not to worry. » [archive du ], Vox, (consulté le )
- Nick Bostrom, Superintelligence: Paths, Dangers, Strategies, Oxford, United Kingdom, Oxford University Press, , 116 p. (ISBN 978-0-19-967811-2)
- Bostrom, « Superintelligent Will » [archive du ], Nick Bostrom, Nick Bostrom, (consulté le )
- {{Article}} : paramètre «
titre
» manquant, paramètre «périodique
» manquant, - Rubin, « Artificial Intelligence and Human Nature », The New Atlantis, vol. 1, , p. 88–100 (lire en ligne [archive du ])
- Sotala et Yampolskiy, « Responses to catastrophic AGI risk: a survey », Physica Scripta, vol. 90, no 1, , p. 12 (ISSN 0031-8949, DOI 10.1088/0031-8949/90/1/018001, Bibcode 2015PhyS...90a8001S)
- Pistono, Federico Yampolskiy, Roman V., Unethical Research: How to Create a Malevolent Artificial Intelligence, (OCLC 1106238048)
- Haney, « The Perils & Promises of Artificial General Intelligence », SSRN Working Paper Series, (ISSN 1556-5068, DOI 10.2139/ssrn.3261254, S2CID 86743553)
Erreur de référence : Des balises <ref>
existent pour un groupe nommé « note », mais aucune balise <references group="note"/>
correspondante n’a été trouvée