Contrôle des capacités de l'IADans le domaine de l'intelligence artificielle (IA), le contrôle des capacités de l'IA, également appelé confinement de l'IA, vise à accroître notre capacité à surveiller et à contrôler le comportement des systèmes d'IA, en particulier pour les intelligences générales artificielles ou les superintelligences artificielles. Le but est de réduire le risque posé par l'IA si elle est mal alignée. Cependant, le contrôle des capacités devient moins efficace à mesure que les agents deviennent plus intelligents et que leur capacité à exploiter des failles augmente, ce qui peut entraîner un risque existentiel. Par conséquent, le philosophe d'Oxford Nick Bostrom et d'autres recommandent les méthodes de contrôle des capacités uniquement en complément des méthodes d'alignement[1]. MotivationUne hypothétique superintelligence qui ne serait pas confinée pourrait, selon ses objectifs, prendre des mesures entraînant l'extinction humaine[2]. Presque quel que soit ses objectifs, un agent intelligent est incité à survivre et acquérir des ressources, selon le concept de convergence instrumentale[3]. Ce genre de phénomènes peut amener un agent ayant des objectifs apparemment inoffensifs à adopter des comportements dangereux. Par exemple, un système extrêmement avancé ayant pour seul but de résoudre l'hypothèse de Riemann, une conjecture mathématique, pourrait décider de tenter de convertir la planète en supercalculateur géant, s'il juge que ça augmenterait ses chances de trouver une démonstration[4]. Une difficulté majeure du contrôle des capacités est que les réseaux de neurones sont par défaut très difficiles à interpréter[5]. Cela rend plus difficile la détection de la tromperie ou d'autres comportements indésirables. Les progrès en interprétabilité pourraient donc atténuer cette difficulté[6]. Articles connexesNotes et références
|