Effondrement de modèles d'intelligence artificielleDans le domaine de l'intelligence artificielle, l'effondrement de modèle (ou model collapse en anglais) est la perte d'efficience que peuvent subir des modèles d'apprentissage automatique, par accumulation d'erreurs, après des entraînements sur des données récursivement générées par un autre modèle d'intelligence artificielle (ou par des versions antérieures de cette même intelligence artificielle). Certains chercheurs et analystes estiment que c'est un problème d'apprentissage automatique dont l'occurrence pourrait augmenter[1],[2],[3], et qui peut aussi concerner l'apprentissage sur certaines données synthétiques, mais d'autres chercheurs pensent que ce risque est limité ou nul car l'apprentissage des modèles d'intelligence artificielle se fait toujours aussi avec des donnés neuves (ou anciennes) provenant de l'environnement réel. Shumailov et al. (2024)[1], qui ont inventé le terme de Model collapse, distinguent deux étapes spécifiques dans cette dégradation : Pour limiter le risque d'effondrement des modèles d'intelligence artificielle, il faut adéquatement concevoir le modèle, sélectionner des données représentatives pour son apprentissage, et surveiller le processus d'apprentissage, afin de minimiser ou compenser ces erreurs. MécanismeBeaucoup de données créées par des intelligences artificielles génératives sont théoriquement impossibles à distinguer des données réelles, sont presque toujours biaisées, inexactes, peu représentatives des données réelles, nuisibles ou présentées hors contexte[5],[6]. L’utilisation de telles données comme données de formation entraîne des problèmes de qualité et de fiabilité du modèle formé [7]. L'effondrement d'un modèle peut se produire pour trois raisons principales qui sont des erreurs d’approximation fonctionnelle, des erreurs d’échantillonnage et des erreurs d’apprentissage[1] :
Même dans les modèles les plus simples, ces erreurs peuvent se manifester, bien que toutes les sources d'erreurs ne soient pas toujours présentes simultanément. Dans les modèles complexes, le cumul de ces erreurs peut conduire à un effondrement plus rapide du modèle, car chaque type d’erreur peut exacerber les effets des autres. Désaccords sur l'impact de ce biais dans le monde réelCertains chercheurs et commentateurs alertent sur le fait que l’effondrement des modèles pourrait selon eux fondamentalement menacer le développement futur de l'intelligence artificielle générative. Leur hypothèse est qu'à mesure que les données générées par l'intelligence artificielle sont diffusées et partagées sur Internet, elles finissent inévitablement par se retrouver dans de futurs corpus de données de formation (classiquement, les données de formation sont en grande partie extraits de l'Internet). Si l’entraînement sur des données synthétiques ne fait pas l'objet de corrections, il peut conduire à l'effondrement du modèle[8]. D'autres chercheurs estiment que ce risque est en réalité limité, car les modèles n'apprennent pas que de modèles : tant que les données synthétiques s’accumulent aux côtés de données générées par l'homme ou issues du monde réel, l'effondrement du modèle sera évité. Ces chercheurs soutiennent que l'accumulation de données au fil du temps est une description plus réaliste de la réalité à venir que le scénario catastrophe d'un effondrement des modèles[9]. Il existe des cas particuliers où des modèles d'intelligence artificielle sont volontairement nourris avec des données synthétiques (par exemple afin de respecter l'anonymat dans le domaine des données de santé ou d'autres types de données personnelles), mais ces données sont alors générées de manières à fortement imiter les données réelles. Des chercheurs progressent aussi rapidement sur l'utilisation de systèmes de détection (eux-mêmes basés sur l'apprentissage automatique) de données générées par des intelligences artificielles[10], ou sur l'utilisation de tags permettant d'identifier les données générées par des modèles, pour pouvoir les extraire des corpus de données utilisés pour l'apprentissage automatique[11],[12]. Modélisations mathématiques du phénomèneModèle gaussien 1DUne première tentative[1] d'illustrer l'effondrement du modèle le plus simple possible a été faite, via un ajustement de distribution normale unidimensionnelle utilisant des estimateurs non biaisés de moyenne et de variance, calculés sur des échantillons de la génération précédente. Pour rendre cela plus précis, les données originales suivent une distribution normale , pour échantillons pour . Désignant un échantillon général comme échantillon à la génération , puis le modèle de génération suivante est estimé à l'aide de la moyenne et de la variance de l'échantillon :
.. conduisant à un modèle de nouvelle génération conditionnellement normal . En théorie, cela suffit pour calculer la distribution complète de . Mais même après la première génération, la distribution complète n'est plus normale, elle suit une distribution variance-gamma. Pour poursuivre l'analyse, au lieu d'écrire la fonction de densité de probabilité à chaque génération, il est possible de les construire explicitement en termes de variables aléatoires indépendantes en utilisant le le théorème de Cochran. Pour être précis, et sont indépendants, avec et , suivant une distribution Gamma. Désignant avec variables aléatoires gaussiennes distribuées avec et avec variables aléatoires distribuées avec , il s'avère possible d'écrire des échantillons à chaque génération comme
et plus généralement
Remarque : il ne s'agit pas de distributions conjointes, car et dépendent directement de , mais en considérant à elle seule, la formule ci-dessus fournit toutes les informations sur la distribution complète. Pour analyser l'effondrement du modèle, nous pouvons d'abord calculer la variance et la moyenne des échantillons à la génération . Cela nous indiquerait à quel type de distributions nous nous attendons à arriver après générations. Il est possible de trouver sa valeur exacte sous forme fermée, mais la moyenne et la variance de la racine carrée de la distribution gamma sont exprimées en termes de fonctions gamma, ce qui rend le résultat assez maladroit. Ensuite[1], il est possible d'étendre tous les résultats au deuxième ordre dans chacun des , en supposant que chaque taille d’échantillon soit grande. Il est alors possible de montrer que
Et si toutes les tailles d'échantillon sont constantes, cela diverge linéairement comme :
Il s'agit de la même échelle que pour une marche aléatoire gaussienne unidimensionnelle. Cependant, la divergence de la variance de ne fournit pas directement d'informations sur les estimations correspondantes de et , en particulier à quel point ils sont différents de l'original et . Il s'avère possible de calculer la distance entre la distribution réelle et la distribution approximative à l'étape , en utilisant la distance de Wasserstein-2 (qui est également parfois appelée risque ) :
Cela montre directement pourquoi l'effondrement du modèle se produit dans ce modèle simple. En raison d'erreurs dues au rééchantillonnage de la distribution approximative, chaque génération finit par correspondre à une nouvelle étape dans une marche aléatoire des paramètres du modèle. Pour une taille d'échantillon constante à chaque génération, la distance moyenne par rapport au point de départ diverge, et pour que l'approximation de la distribution finale soit précise, ou pour que la distance soit finie, le taux d'échantillonnage doit augmenter de manière superlinéaire, c'est-à-dire qu'il faut collecter de plus en plus d'échantillons au fil du temps, peut-être de manière quadratique. Cependant, même dans ce cas, la distance attendue après les étapes restent différentes de zéro et le seul cas où elles finissent par être nulles est lorsque l'échantillonnage est infini à chaque étape. Dans l'ensemble, cela nous montre seulement à quelle distance en moyenne on se trouve de la distribution d'origine, mais le processus ne peut « se terminer » que si la variance estimée à une certaine génération devient suffisamment petite, transformant ainsi efficacement la distribution en une fonction delta. Ceci est démontré pour un modèle gaussien général[13] dans la sous-section ci-dessous. Modèle ND gaussienDe plus, dans le cas d'un modèle multidimensionnel avec des données entièrement synthétiques, un effondrement exact peut être démontré[13],[1]. Régression linéaireDans le cas d'un modèle de régression linéaire[14],[15], des lois d'échelle et des limites sur l'apprentissage peuvent être trouvées. Modèle de langage statistiqueDans le cas d'un classificateur softmax linéaire pour la prédiction du prochain jeton[16], des limites exactes sur l'apprentissage avec même un ensemble de données partiellement synthétique peuvent être trouvées. Impact sur les grands modèles de langageDans le contexte des grands modèles linguistiques, les recherches ont montré que la formation des LLM sur du texte généré par un prédécesseur (les modèles linguistiques sont formés sur les données synthétiques produites par les modèles précédents) entraîne une diminution constante de la diversité lexicale, syntaxique et sémantique des résultats du modèle au fil des itérations successives, d'une manière particulièrement notable pour les tâches exigeant des niveaux élevés de créativité[17]. Références
Voir aussiBibliographie
Information related to Effondrement de modèles d'intelligence artificielle |