Paul Christiano

Biographie
Formation	Université de Californie à Berkeley (doctorat) (jusqu'en 2017)
Activités	Informaticien, chercheur
A travaillé pour	OpenAI
Directeur de thèse	Umesh Vazirani
Site web	(en) paulfchristiano.com
Blog officiel	(en) sideways-view.com

Paul Christiano est un chercheur américain en intelligence artificielle (IA), spécialisé en alignement des intelligences artificielles (un sous-domaine de la recherche sûreté de l'IA visant à orienter les systèmes d'IA vers les intérêts humains)^[1]. Il dirigeait auparavant l'équipe d'alignement des modèles de langage d'OpenAI^[2]. Il est depuis 2021 le dirigeant fondateur du Alignment Research Center, un organisme à but non lucratif qui travaille sur l'alignement théorique de l'IA et l'évaluation des modèles d'apprentissage automatique^[2]^,^[3].

Biographie[modifier | modifier le code]

Études[modifier | modifier le code]

En 2012, Christiano est diplômé du MIT avec un diplôme en mathématiques^[4]. Au MIT, il a étudié les structures de données, la cryptographie quantique et l'optimisation combinatoire^[5].

Carrière[modifier | modifier le code]

À OpenAI, Christiano a coécrit l'article « Deep Reinforcement Learning from Human Preferences » (L'apprentissage par renforcement profond à partir de préférences humaines, 2017) et d'autres travaux développant l'apprentissage par renforcement à partir de rétroaction humaine (Reinforcement learning from human feedback, RLHF en anglais)^[6]^,^[7]. Cette technique, utilisée pour l'entraînement de ChatGPT et d'autres modèles de langage, permet d'apprendre à partir des préférences humaines subjectives, plutôt que de fonctions d'objectif qui peuvent être de mauvais indicateurs des intérêts humains^[8]^,^[9]. D'autres travaux tels que « AI safety via debate » (La sûreté de l'IA par le débat, 2018) se concentrent sur le problème de la surveillance évolutive - superviser les IAs dans des domaines où les humains auraient du mal à juger de la qualité des contenus générés^[10]^,^[11]^,^[12].

Christiano a quitté OpenAI en 2021 pour travailler sur des questions plus conceptuelles et théoriques dans l'alignement de l'IA, et a ensuite fondé le Alignment Research Center pour se concentrer sur ce domaine^[1]. Il étudie notamment comment faire pour que les modèles avancés d'IA répondent au mieux de leurs connaissances, même lorsque les humains sont incapables d'en juger (« Eliciting Latent Knowledge », ELK)^[13]^,^[14].

Christiano est connu pour ses opinions sur les risques potentiels liés à l'IA. Dans une interview de 2023, il estime personellement être de 10 à 20% la probabilité pour que l'IA prenne le contrôle du monde en éliminant beaucoup ou la plupart des humains^[1]. Il a également estimé subjectivement à 46% la probabilité pour que le futur de l'humanité soit irréversiblement ruiné (cf. risque existentiel) moins de 10 ans après la création d'IAs puissantes^[15].

Notes et références[modifier | modifier le code]

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Paul Christiano (researcher) » (voir la liste des auteurs).

↑ ^{a b et c} (en) « A.I. has a '10 or 20% chance' of conquering humanity, former OpenAI safety researcher warns », Fortune (consulté le 4 juin 2023)
↑ ^{a et b} (en-US) Decrypt / Jose Antonio Lanz, « Former OpenAI Researcher: There’s a 50% Chance AI Ends in 'Catastrophe' », sur Decrypt, 28 avril 2023 (consulté le 4 août 2023)
↑ (en) Kelsey Piper, « How to test what an AI model can — and shouldn’t — do », sur Vox, 29 mars 2023 (consulté le 4 août 2023)
↑ « Paul Christiano »
↑ « About the Authors: Theory of Computing: An Open Access Electronic Journal in Theoretical Computer Science »
↑ Christiano, Leike, Brown et Martic, « Deep Reinforcement Learning from Human Preferences », Advances in Neural Information Processing Systems, Curran Associates, Inc., vol. 30,‎ 2017 (lire en ligne)
↑ (en) Ouyang, Wu, Jiang et Almeida, « Training language models to follow instructions with human feedback », Advances in Neural Information Processing Systems, vol. 35,‎ 6 décembre 2022, p. 27730–27744 (arXiv 2203.02155, lire en ligne)
↑ (en-US) « Learning from human preferences », openai.com (consulté le 4 juin 2023)
↑ (en-US) « How reinforcement learning with human feedback is unlocking the power of generative AI », VentureBeat, 23 avril 2023 (consulté le 4 juin 2023)
↑ (en) Geoffrey Irving, Paul Christiano et Dario Amodei, « AI safety via debate », 2 mai 2018.
↑ (en) Jeff Wu, Long Ouyang, Daniel M. Ziegler, Nisan Stiennon, Ryan Lowe, Jan Leike, Paul Christiano, « Recursively Summarizing Books with Human Feedback », 22 septembre 2021.
↑ (en) Paul Christiano, Buck Shlegeris et Dario Amodei, « Supervising strong learners by amplifying weak experts », 19 octobre 2018.
↑ (en) Collin Burns, Haotian Ye, Dan Klein et Jacob Steinhardt, « Discovering Latent Knowledge in Language Models Without Supervision », 7 décembre 2022.
↑ (en) Christiano, Cotra et Xu, « Eliciting Latent Knowledge: How to tell if your eyes deceive you », Google Docs, Alignment Research Center, décembre 2021 (consulté le 16 avril 2023)
↑ (en) Paul Christiano, « My views on “doom” », sur Medium, 27 avril 2023 (consulté le 4 août 2023)

Liens externes[modifier | modifier le code]

(en) Site officiel
Ressources relatives à la recherche :

[:0-1] {a b et c} (en) « A.I. has a '10 or 20% chance' of conquering humanity, former OpenAI safety researcher warns », Fortune (consulté le 4 juin 2023)

[:1-2] {a et b} (en-US) Decrypt / Jose Antonio Lanz, « Former OpenAI Researcher: There’s a 50% Chance AI Ends in 'Catastrophe' », sur Decrypt, 28 avril 2023 (consulté le 4 août 2023)

[3] (en) Kelsey Piper, « How to test what an AI model can — and shouldn’t — do », sur Vox, 29 mars 2023 (consulté le 4 août 2023)

[4] « Paul Christiano »

[5] « About the Authors: Theory of Computing: An Open Access Electronic Journal in Theoretical Computer Science »

[6] Christiano, Leike, Brown et Martic, « Deep Reinforcement Learning from Human Preferences », Advances in Neural Information Processing Systems, Curran Associates, Inc., vol. 30,‎ 2017 (lire en ligne)

[7] (en) Ouyang, Wu, Jiang et Almeida, « Training language models to follow instructions with human feedback », Advances in Neural Information Processing Systems, vol. 35,‎ 6 décembre 2022, p. 27730–27744 (arXiv 2203.02155, lire en ligne)

[8] (en-US) « Learning from human preferences », openai.com (consulté le 4 juin 2023)

[9] (en-US) « How reinforcement learning with human feedback is unlocking the power of generative AI », VentureBeat, 23 avril 2023 (consulté le 4 juin 2023)

[10] (en) Geoffrey Irving, Paul Christiano et Dario Amodei, « AI safety via debate », 2 mai 2018.

[11] (en) Jeff Wu, Long Ouyang, Daniel M. Ziegler, Nisan Stiennon, Ryan Lowe, Jan Leike, Paul Christiano, « Recursively Summarizing Books with Human Feedback », 22 septembre 2021.

[12] (en) Paul Christiano, Buck Shlegeris et Dario Amodei, « Supervising strong learners by amplifying weak experts », 19 octobre 2018.

[13] (en) Collin Burns, Haotian Ye, Dan Klein et Jacob Steinhardt, « Discovering Latent Knowledge in Language Models Without Supervision », 7 décembre 2022.

[14] (en) Christiano, Cotra et Xu, « Eliciting Latent Knowledge: How to tell if your eyes deceive you », Google Docs, Alignment Research Center, décembre 2021 (consulté le 16 avril 2023)

[15] (en) Paul Christiano, « My views on “doom” », sur Medium, 27 avril 2023 (consulté le 4 août 2023)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]