Paul Christiano

Un article de Wikipédia, l'encyclopédie libre.
Paul Christiano
une illustration sous licence libre serait bienvenue
Biographie
Formation
Activités
Autres informations
A travaillé pour
Directeur de thèse
Site web
Blog officiel

Paul Christiano est un chercheur américain en intelligence artificielle (IA), spécialisé en alignement des intelligences artificielles (un sous-domaine de la recherche sûreté de l'IA visant à orienter les systèmes d'IA vers les intérêts humains)[1]. Il dirigeait auparavant l'équipe d'alignement des modèles de langage d'OpenAI[2]. Il est depuis 2021 le dirigeant fondateur du Alignment Research Center, un organisme à but non lucratif qui travaille sur l'alignement théorique de l'IA et l'évaluation des modèles d'apprentissage automatique[2],[3].

Biographie[modifier | modifier le code]

Études[modifier | modifier le code]

En 2012, Christiano est diplômé du MIT avec un diplôme en mathématiques[4]. Au MIT, il a étudié les structures de données, la cryptographie quantique et l'optimisation combinatoire[5].

Carrière[modifier | modifier le code]

À OpenAI, Christiano a coécrit l'article « Deep Reinforcement Learning from Human Preferences » (L'apprentissage par renforcement profond à partir de préférences humaines, 2017) et d'autres travaux développant l'apprentissage par renforcement à partir de rétroaction humaine (Reinforcement learning from human feedback, RLHF en anglais)[6],[7]. Cette technique, utilisée pour l'entraînement de ChatGPT et d'autres modèles de langage, permet d'apprendre à partir des préférences humaines subjectives, plutôt que de fonctions d'objectif qui peuvent être de mauvais indicateurs des intérêts humains[8],[9]. D'autres travaux tels que « AI safety via debate » (La sûreté de l'IA par le débat, 2018) se concentrent sur le problème de la surveillance évolutive - superviser les IAs dans des domaines où les humains auraient du mal à juger de la qualité des contenus générés[10],[11],[12].

Christiano a quitté OpenAI en 2021 pour travailler sur des questions plus conceptuelles et théoriques dans l'alignement de l'IA, et a ensuite fondé le Alignment Research Center pour se concentrer sur ce domaine[1]. Il étudie notamment comment faire pour que les modèles avancés d'IA répondent au mieux de leurs connaissances, même lorsque les humains sont incapables d'en juger (« Eliciting Latent Knowledge », ELK)[13],[14].

Christiano est connu pour ses opinions sur les risques potentiels liés à l'IA. Dans une interview de 2023, il estime personellement être de 10 à 20% la probabilité pour que l'IA prenne le contrôle du monde en éliminant beaucoup ou la plupart des humains[1]. Il a également estimé subjectivement à 46% la probabilité pour que le futur de l'humanité soit irréversiblement ruiné (cf. risque existentiel) moins de 10 ans après la création d'IAs puissantes[15].

Notes et références[modifier | modifier le code]

  1. a b et c (en) « A.I. has a '10 or 20% chance' of conquering humanity, former OpenAI safety researcher warns », Fortune (consulté le )
  2. a et b (en-US) Decrypt / Jose Antonio Lanz, « Former OpenAI Researcher: There’s a 50% Chance AI Ends in 'Catastrophe' », sur Decrypt, (consulté le )
  3. (en) Kelsey Piper, « How to test what an AI model can — and shouldn’t — do », sur Vox, (consulté le )
  4. « Paul Christiano »
  5. « About the Authors: Theory of Computing: An Open Access Electronic Journal in Theoretical Computer Science »
  6. Christiano, Leike, Brown et Martic, « Deep Reinforcement Learning from Human Preferences », Advances in Neural Information Processing Systems, Curran Associates, Inc., vol. 30,‎ (lire en ligne)
  7. (en) Ouyang, Wu, Jiang et Almeida, « Training language models to follow instructions with human feedback », Advances in Neural Information Processing Systems, vol. 35,‎ , p. 27730–27744 (arXiv 2203.02155, lire en ligne)
  8. (en-US) « Learning from human preferences », openai.com (consulté le )
  9. (en-US) « How reinforcement learning with human feedback is unlocking the power of generative AI », VentureBeat, (consulté le )
  10. (en) Geoffrey Irving, Paul Christiano et Dario Amodei, « AI safety via debate », .
  11. (en) Jeff Wu, Long Ouyang, Daniel M. Ziegler, Nisan Stiennon, Ryan Lowe, Jan Leike, Paul Christiano, « Recursively Summarizing Books with Human Feedback », .
  12. (en) Paul Christiano, Buck Shlegeris et Dario Amodei, « Supervising strong learners by amplifying weak experts », .
  13. (en) Collin Burns, Haotian Ye, Dan Klein et Jacob Steinhardt, « Discovering Latent Knowledge in Language Models Without Supervision », .
  14. (en) Christiano, Cotra et Xu, « Eliciting Latent Knowledge: How to tell if your eyes deceive you », Google Docs, Alignment Research Center, (consulté le )
  15. (en) Paul Christiano, « My views on “doom” », sur Medium, (consulté le )

Liens externes[modifier | modifier le code]