Contrôle des capacités de l'IA

Dans le domaine de l'intelligence artificielle (IA), le contrôle des capacités de l'IA, également appelé confinement de l'IA, vise à accroître notre capacité à surveiller et à contrôler le comportement des systèmes d'IA, en particulier pour les intelligences générales artificielles ou les superintelligences artificielles. Le but est de réduire le risque posé par l'IA si elle est mal alignée. Cependant, le contrôle des capacités devient moins efficace à mesure que les agents deviennent plus intelligents et que leur capacité à exploiter des failles augmente, ce qui peut entraîner un risque existentiel. Par conséquent, le philosophe d'Oxford Nick Bostrom et d'autres recommandent les méthodes de contrôle des capacités uniquement en complément des méthodes d'alignement^[1].

Motivation

Une hypothétique superintelligence qui ne serait pas confinée pourrait, selon ses objectifs, prendre des mesures entraînant l'extinction humaine^[2]. Presque quel que soit ses objectifs, un agent intelligent est incité à survivre et acquérir des ressources, selon le concept de convergence instrumentale^[3]. Ce genre de phénomènes peut amener un agent ayant des objectifs apparemment inoffensifs à adopter des comportements dangereux. Par exemple, un système extrêmement avancé ayant pour seul but de résoudre l'hypothèse de Riemann, une conjecture mathématique, pourrait décider de tenter de convertir la planète en supercalculateur géant, s'il juge que ça augmenterait ses chances de trouver une démonstration^[4].

Une difficulté majeure du contrôle des capacités est que les réseaux de neurones sont par défaut très difficiles à interpréter^[5]. Cela rend plus difficile la détection de la tromperie ou d'autres comportements indésirables. Les progrès en interprétabilité pourraient donc atténuer cette difficulté^[6].

Articles connexes

Notes et références

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « AI capability control » (voir la liste des auteurs).

↑ (en) Nick Bostrom, Superintelligence: Paths, Dangers, Strategies, Oxford, First, 2014 (ISBN 9780199678112).
↑ Vincent C. Müller et Nick Bostrom, Future progress in artificial intelligence: A survey of expert opinion" in Fundamental Issues of Artificial Intelligence, Springer, 2016, p. 553-571.
↑ (en) « Instrumental Convergence - LessWrong », sur www.lesswrong.com (consulté le 14 avril 2023)
↑ Stuart J. Russell et Peter Norvig, Artificial Intelligence: A Modern Approach, Upper Saddle River, N.J., Prentice Hall, 2003 (ISBN 978-0137903955), « Section 26.3: The Ethics and Risks of Developing Artificial Intelligence », Similarly, Marvin Minsky once suggested that an AI program designed to solve the Riemann Hypothesis might end up taking over all the resources of Earth to build more powerful supercomputers to help achieve its goal.
↑ (en) Montavon, Samek et Müller, « Methods for interpreting and understanding deep neural networks », Digital Signal Processing, vol. 73,‎ 2018, p. 1–15 (ISSN 1051-2004, DOI 10.1016/j.dsp.2017.10.011, S2CID 207170725).
↑ (en) Yampolskiy, Roman V., « Unexplainability and Incomprehensibility of AI », Journal of Artificial Intelligence and Consciousness,‎ 2020, p. 277-291. 7.02.

[superintelligence-1] (en) Nick Bostrom, Superintelligence: Paths, Dangers, Strategies, Oxford, First, 2014 (ISBN 9780199678112).

[2] Vincent C. Müller et Nick Bostrom, Future progress in artificial intelligence: A survey of expert opinion" in Fundamental Issues of Artificial Intelligence, Springer, 2016, p. 553-571.

[3] (en) « Instrumental Convergence - LessWrong », sur www.lesswrong.com (consulté le 14 avril 2023)

[4] Stuart J. Russell et Peter Norvig, Artificial Intelligence: A Modern Approach, Upper Saddle River, N.J., Prentice Hall, 2003 (ISBN 978-0137903955), « Section 26.3: The Ethics and Risks of Developing Artificial Intelligence », Similarly, Marvin Minsky once suggested that an AI program designed to solve the Riemann Hypothesis might end up taking over all the resources of Earth to build more powerful supercomputers to help achieve its goal.

[interpretability_survey-5] (en) Montavon, Samek et Müller, « Methods for interpreting and understanding deep neural networks », Digital Signal Processing, vol. 73,‎ 2018, p. 1–15 (ISSN 1051-2004, DOI 10.1016/j.dsp.2017.10.011, S2CID 207170725).

[6] (en) Yampolskiy, Roman V., « Unexplainability and Incomprehensibility of AI », Journal of Artificial Intelligence and Consciousness,‎ 2020, p. 277-291. 7.02.

[1]

[2]

[3]

[4]

[5]

[6]

Contrôle des capacités de l'IA

Motivation

Articles connexes

Notes et références

Portal di Ensiklopedia Dunia