Effondrement de modèles d'intelligence artificielle

Dans le domaine de l'intelligence artificielle, l'effondrement de modèle (ou model collapse en anglais) est la perte d'efficience que peuvent subir des modèles d'apprentissage automatique, par accumulation d'erreurs, après des entraînements sur des données récursivement générées par un autre modèle d'intelligence artificielle (ou par des versions antérieures de cette même intelligence artificielle).

Certains chercheurs et analystes estiment que c'est un problème d'apprentissage automatique dont l'occurrence pourrait augmenter^[1]^,^[2]^,^[3], et qui peut aussi concerner l'apprentissage sur certaines données synthétiques, mais d'autres chercheurs pensent que ce risque est limité ou nul car l'apprentissage des modèles d'intelligence artificielle se fait toujours aussi avec des donnés neuves (ou anciennes) provenant de l'environnement réel.

Shumailov et al. (2024)^[1], qui ont inventé le terme de Model collapse, distinguent deux étapes spécifiques dans cette dégradation :
1) une phase précoce, parfois discrète ; et
2), un effondrement du modèle.
Lors de la phase précoce, le modèle commence à perdre des informations sur les queues de la distribution – affectant principalement les données mineures. L'effondrement précoce du modèle est difficile à remarquer car, paradoxalement, les performances globales du modèle peuvent sembler s'améliorer, même s'il perd en performances sur les données mineures^[4]. Lors de la phase d'effondrement tardif du modèle, celui-ci perd une part importante de ses performances, il perd la majeure partie de sa variance.

Pour limiter le risque d'effondrement des modèles d'intelligence artificielle, il faut adéquatement concevoir le modèle, sélectionner des données représentatives pour son apprentissage, et surveiller le processus d'apprentissage, afin de minimiser ou compenser ces erreurs.

Mécanisme

Beaucoup de données créées par des intelligences artificielles génératives sont théoriquement impossibles à distinguer des données réelles, sont presque toujours biaisées, inexactes, peu représentatives des données réelles, nuisibles ou présentées hors contexte^[5]^,^[6]. L’utilisation de telles données comme données de formation entraîne des problèmes de qualité et de fiabilité du modèle formé ^[7].

L'effondrement d'un modèle peut se produire pour trois raisons principales qui sont des erreurs d’approximation fonctionnelle, des erreurs d’échantillonnage et des erreurs d’apprentissage^[1] :

erreurs d'approximation fonctionnelle : elles surviennent quand le modèle d'intelligence artificielle ne parvient pas à capturer correctement la relation entre les variables d'entrée et de sortie. Cela peut être dû à une complexité insuffisante du modèle ou à une mauvaise sélection des fonctions d’approximation. Par exemple, un modèle linéaire ne pourra pas capturer des relations non linéaires complexes ;
erreurs d'échantillonnage : elles se produisent quand les données utilisées pour entraîner le modèle ne sont pas représentatives de la population réelle. Cela peut résulter d’un biais dans la sélection des données et/ou d’une taille d'échantillon insuffisante. Ces erreurs peuvent entraîner des modèles qui fonctionnent bien sur les données d'entraînement mais échouent sur de nouvelles données. Remarque : ci-dessus, le mot population fait référence à une population statistique de données (l'ensemble complet des données ou des cas possibles que le modèle d'intelligence artificielle est censé représenter ou prédire). Par exemple, si un modèle doit prédire les préférences musicales d'utilisateurs, la population inclurait tous les utilisateurs potentiels et leurs préférences musicales ;
erreurs d'apprentissage : les erreurs d'apprentissage sont liées aux processus d’optimisation et de généralisation du modèle. Elles peuvent survenir en raison d’un surapprentissage (overfitting), quand le modèle s’adapte trop étroitement aux données d’entraînement, ou d’un sous-apprentissage (underfitting), quand le modèle est trop simple pour capturer les tendances des données.

Même dans les modèles les plus simples, ces erreurs peuvent se manifester, bien que toutes les sources d'erreurs ne soient pas toujours présentes simultanément.

Dans les modèles complexes, le cumul de ces erreurs peut conduire à un effondrement plus rapide du modèle, car chaque type d’erreur peut exacerber les effets des autres.

Désaccords sur l'impact de ce biais dans le monde réel

Certains chercheurs et commentateurs alertent sur le fait que l’effondrement des modèles pourrait selon eux fondamentalement menacer le développement futur de l'intelligence artificielle générative. Leur hypothèse est qu'à mesure que les données générées par l'intelligence artificielle sont diffusées et partagées sur Internet, elles finissent inévitablement par se retrouver dans de futurs corpus de données de formation (classiquement, les données de formation sont en grande partie extraits de l'Internet). Si l’entraînement sur des données synthétiques ne fait pas l'objet de corrections, il peut conduire à l'effondrement du modèle^[8].

D'autres chercheurs estiment que ce risque est en réalité limité, car les modèles n'apprennent pas que de modèles : tant que les données synthétiques s’accumulent aux côtés de données générées par l'homme ou issues du monde réel, l'effondrement du modèle sera évité. Ces chercheurs soutiennent que l'accumulation de données au fil du temps est une description plus réaliste de la réalité à venir que le scénario catastrophe d'un effondrement des modèles^[9]. Il existe des cas particuliers où des modèles d'intelligence artificielle sont volontairement nourris avec des données synthétiques (par exemple afin de respecter l'anonymat dans le domaine des données de santé ou d'autres types de données personnelles), mais ces données sont alors générées de manières à fortement imiter les données réelles.

Des chercheurs progressent aussi rapidement sur l'utilisation de systèmes de détection (eux-mêmes basés sur l'apprentissage automatique) de données générées par des intelligences artificielles^[10], ou sur l'utilisation de tags permettant d'identifier les données générées par des modèles, pour pouvoir les extraire des corpus de données utilisés pour l'apprentissage automatique^[11]^,^[12].

Modélisations mathématiques du phénomène

Modèle gaussien 1D

Une première tentative^[1] d'illustrer l'effondrement du modèle le plus simple possible a été faite, via un ajustement de distribution normale unidimensionnelle utilisant des estimateurs non biaisés de moyenne et de variance, calculés sur des échantillons de la génération précédente.

Pour rendre cela plus précis, les données originales suivent une distribution normale $X^{0}\sim {\mathcal {N}}(\mu ,\sigma ^{2})$ , pour $M_{0}$ échantillons $X_{j}^{0}$ pour $j=1,\dots ,M_{0}$ . Désignant un échantillon général $X_{j}^{i}$ comme échantillon $j=1,\dots ,M_{i}$ à la génération $i$ , puis le modèle de génération suivante est estimé à l'aide de la moyenne et de la variance de l'échantillon :

$\mu _{i+1}={\frac {1}{M_{i}}}\sum _{j}X_{j}^{i};\quad \sigma _{i+1}^{2}={\frac {1}{M_{i}-1}}\sum _{j}(X_{j}^{i}-\mu _{i+1})^{2}.$

.. conduisant à un modèle de nouvelle génération conditionnellement normal $X_{j}^{i+1}|\mu _{i+1},\;\sigma _{i+1}\sim {\mathcal {N}}(\mu _{i+1},\sigma _{i+1}^{2})$ . En théorie, cela suffit pour calculer la distribution complète de $X_{j}^{i}$ . Mais même après la première génération, la distribution complète n'est plus normale, elle suit une distribution variance-gamma.

Pour poursuivre l'analyse, au lieu d'écrire la fonction de densité de probabilité à chaque génération, il est possible de les construire explicitement en termes de variables aléatoires indépendantes en utilisant le le théorème de Cochran. Pour être précis, $\mu _{1}$ et $\sigma _{1}$ sont indépendants, avec $\mu _{1}\sim {\mathcal {N}}(\mu ,{\frac {\sigma ^{2}}{M_{0}}})$ et $(M_{0}-1)\sigma _{1}^{2}\sim \sigma ^{2}\Gamma \left({\frac {M_{0}-1}{2}},{\frac {1}{2}}\right)$ , suivant une distribution Gamma. Désignant avec $Z$ variables aléatoires gaussiennes distribuées avec ${\mathcal {N}}(0,1)$ et avec $S^{i}$ variables aléatoires distribuées avec ${\frac {1}{M_{i-1}-1}}\Gamma \left({\frac {M_{i-1}-1}{2}},{\frac {1}{2}}\right)$ , il s'avère possible d'écrire des échantillons à chaque génération comme

${\textstyle X_{j}^{0}=\mu +\sigma Z_{j}^{0},}$

${\textstyle X_{j}^{1}=\mu +{\frac {\sigma }{\sqrt {M_{0}}}}Z^{1}+\sigma {\sqrt {S^{1}}}Z_{j}^{1},}$

et plus généralement

$X_{j}^{n}=\mu +{\frac {\sigma }{\sqrt {M_{0}}}}Z^{1}+{\frac {\sigma }{\sqrt {M_{1}}}}{\sqrt {S^{1}}}Z^{2}+\dots +{\frac {\sigma }{\sqrt {M_{n-1}}}}{\sqrt {S^{1}\times \dots \times S^{n-1}}}Z^{n}+\sigma {\sqrt {S^{1}\times \dots \times S^{n}}}Z_{j}^{n}.$

Remarque : il ne s'agit pas de distributions conjointes, car $Z^{n}$ et $S^{n}$ dépendent directement de $Z_{j}^{n-1}$ , mais en considérant $X_{j}^{n}$ à elle seule, la formule ci-dessus fournit toutes les informations sur la distribution complète.

Pour analyser l'effondrement du modèle, nous pouvons d'abord calculer la variance et la moyenne des échantillons à la génération $n$ . Cela nous indiquerait à quel type de distributions nous nous attendons à arriver après $n$ générations. Il est possible de trouver sa valeur exacte sous forme fermée, mais la moyenne et la variance de la racine carrée de la distribution gamma sont exprimées en termes de fonctions gamma, ce qui rend le résultat assez maladroit. Ensuite^[1], il est possible d'étendre tous les résultats au deuxième ordre dans chacun des $1/M_{i}$ , en supposant que chaque taille d’échantillon soit grande. Il est alors possible de montrer que

${\frac {1}{\sigma ^{2}}}\operatorname {Var} (X_{j}^{n})={\frac {1}{M_{0}}}+{\frac {1}{M_{1}}}+\dots +{\frac {1}{M_{n-1}}}+1+{\mathcal {O}}\left(M_{i}^{-2}\right).$

Et si toutes les tailles d'échantillon $M_{i}=M$ sont constantes, cela diverge linéairement comme $n\to \infty$ :

$\operatorname {Var} (X_{j}^{n})=\sigma ^{2}\left(1+{\frac {n}{M}}\right);\quad \mathbb {E} (X_{j}^{n})=\mu .$

Il s'agit de la même échelle que pour une marche aléatoire gaussienne unidimensionnelle. Cependant, la divergence de la variance de $X_{j}^{n}$ ne fournit pas directement d'informations sur les estimations correspondantes de $\mu _{n+1}$ et $\sigma _{n+1}$ , en particulier à quel point ils sont différents de l'original $\mu$ et $\sigma$ . Il s'avère possible de calculer la distance entre la distribution réelle et la distribution approximative à l'étape $n+1$ , en utilisant la distance de Wasserstein-2 (qui est également parfois appelée risque ) :

$\mathbb {E} \left[\mathbb {W} _{2}^{2}\left({\mathcal {N}}(\mu ,\sigma ^{2}),{\mathcal {N}}(\mu _{n+1},\sigma _{n+1}^{2})\right)\right]={\frac {3}{2}}\sigma ^{2}\left({\frac {1}{M_{0}}}+{\frac {1}{M_{1}}}+\dots +{\frac {1}{M_{n}}}\right)+{\mathcal {O}}\left(M_{i}^{-2}\right),$

$\operatorname {Var} \left[\mathbb {W} _{2}^{2}\left({\mathcal {N}}(\mu ,\sigma ^{2}),{\mathcal {N}}(\mu _{n+1},\sigma _{n+1}^{2})\right)\right]={\frac {1}{2}}\sigma ^{4}\left({\frac {3}{M_{0}^{2}}}+{\frac {3}{M_{1}^{2}}}+\dots +{\frac {3}{M_{n}^{2}}}+\sum _{i\neq j}{\frac {4}{M_{i}M_{j}}}\right)+{\mathcal {O}}\left(M_{i}^{-3}\right).$

Cela montre directement pourquoi l'effondrement du modèle se produit dans ce modèle simple. En raison d'erreurs dues au rééchantillonnage de la distribution approximative, chaque génération finit par correspondre à une nouvelle étape dans une marche aléatoire des paramètres du modèle. Pour une taille d'échantillon constante à chaque génération, la distance moyenne par rapport au point de départ diverge, et pour que l'approximation de la distribution finale soit précise, ou pour que la distance soit finie, le taux d'échantillonnage $M_{i}$ doit augmenter de manière superlinéaire, c'est-à-dire qu'il faut collecter de plus en plus d'échantillons au fil du temps, peut-être de manière quadratique. Cependant, même dans ce cas, la distance attendue après $n$ les étapes restent différentes de zéro et le seul cas où elles finissent par être nulles est lorsque l'échantillonnage est infini à chaque étape. Dans l'ensemble, cela nous montre seulement à quelle distance en moyenne on se trouve de la distribution d'origine, mais le processus ne peut « se terminer » que si la variance estimée à une certaine génération devient suffisamment petite, transformant ainsi efficacement la distribution en une fonction delta. Ceci est démontré pour un modèle gaussien général^[13] dans la sous-section ci-dessous.

Modèle ND gaussien

De plus, dans le cas d'un modèle multidimensionnel avec des données entièrement synthétiques, un effondrement exact peut être démontré^[13]^,^[1].

Régression linéaire

Dans le cas d'un modèle de régression linéaire^[14]^,^[15], des lois d'échelle et des limites sur l'apprentissage peuvent être trouvées.

Modèle de langage statistique

Dans le cas d'un classificateur softmax linéaire pour la prédiction du prochain jeton^[16], des limites exactes sur l'apprentissage avec même un ensemble de données partiellement synthétique peuvent être trouvées.

Impact sur les grands modèles de langage

Dans le contexte des grands modèles linguistiques, les recherches ont montré que la formation des LLM sur du texte généré par un prédécesseur (les modèles linguistiques sont formés sur les données synthétiques produites par les modèles précédents) entraîne une diminution constante de la diversité lexicale, syntaxique et sémantique des résultats du modèle au fil des itérations successives, d'une manière particulièrement notable pour les tâches exigeant des niveaux élevés de créativité^[17].

Références

↑ ^{a b c d e et f} (en) Ilia Shumailov, Zakhar Shumaylov, Yiren Zhao et Nicolas Papernot, « AI models collapse when trained on recursively generated data », Nature, vol. 631, n^o 8022,‎ juillet 2024, p. 755–759 (ISSN 1476-4687, PMCID 11269175, DOI 10.1038/s41586-024-07566-y, lire en ligne).
↑ (en) Ilkhan Ozsevim, « Research finds ChatGPT & Bard headed for 'Model Collapse' », sur aimagazine.com, 20 juin 2023 (consulté le 19 octobre 2024).
↑ (en-US) Aaron Mok, « A disturbing AI phenomenon could completely upend the internet as we know it », Business Insider (consulté le 6 mars 2024).
↑ (en) Sierra Wyllie, Ilia Shumailov et Nicolas Papernot, The 2024 ACM Conference on Fairness, Accountability, and Transparency, New York, NY, USA, Association for Computing Machinery, coll. « FAccT '24 », 5 juin 2024, 2113–2147 p. (ISBN 979-8-4007-0450-5, DOI 10.1145/3630106.3659029, arXiv 2403.07857), « Fairness Feedback Loops: Training on Synthetic Data Amplifies Bias ».
↑ (en) Micholas De Rosa, « How the new version of ChatGPT generates hate and disinformation on command », sur CBC, 31 mai 2024 (consulté le 13 juin 2024).
↑ (en-US) Kyle Orland, « Google’s “AI Overview” can give false, misleading, and dangerous answers », sur Ars Technica, 24 mai 2024 (consulté le 19 octobre 2024).
↑ (en) « Self-Consuming Generative Models Go MAD » (lire en ligne)
—The Twelfth International Conference on Learning Representations.
↑ (en) « What is Model Collapse and how to avoid it », The Register (consulté le 11 juillet 2024).
↑ (en) « Big brains divided over training AI with more AI: Is model collapse inevitable? », The Register (consulté le 11 juillet 2024).
↑ (en) Ruixiang Tang, Yu-Neng Chuang et Xia Hu, « The Science of Detecting LLM-Generated Text », Communications of the ACM, vol. 67, n^o 4,‎ 25 mars 2024, p. 50–59 (ISSN 0001-0782 et 1557-7317, DOI 10.1145/3624725, lire en ligne, consulté le 19 octobre 2024).
↑ (en) John Kirchenbauer, Jonas Geiping, Yuxin Wen et Jonathan Katz, « A Watermark for Large Language Models », Proceedings of the 40th International Conference on Machine Learning, PMLR,‎ 3 juillet 2023, p. 17061–17084 (lire en ligne).
↑ (en-US) « My AI Safety Lecture for UT Effective Altruism », Shtetl-Optimized, 29 novembre 2022 (consulté le 22 juin 2024).
↑ ^{a et b} Alemohammad, S., Casco-Rodriguez, J., Luzi, L., Humayun, A. I., Babaei, H., LeJeune, D., ... & Baraniuk, R. G. (2023). Self-consuming generative models go mad. arXiv preprint arXiv:2307.01850. | url=https://arxiv.org/abs/2307.01850
↑ (en) Elvis Dohmatob, Yunzhen Feng et Julia Kempe, « Model Collapse Demystified: The Case of Regression », 12 février 2024.
↑ (en) Elvis Dohmatob, Yunzhen Feng et Pu Yang, « A Tale of Tails: Model Collapse as a Change of Scaling Laws », 10 février 2024.
↑ (en) Mohamed El Amine Seddik, « How Bad is Training on Synthetic Data? A Statistical Analysis of Language Model Collapse », 7 avril 2024.
↑ (en) Yanzhu Guo, « The Curious Decline of Linguistic Diversity: Training Language Models on Synthetic Text », 16 avril 2024.

Voir aussi

Bibliographie

(en) Ilia Shumailov, Zakhar Shumaylov, Yiren Zhao et Nicolas Papernot, « AI models collapse when trained on recursively generated data », Nature, vol. 631, n^o 8022,‎ juillet 2024, p. 755–759 (ISSN 1476-4687, DOI 10.1038/s41586-024-07566-y, lire en ligne, consulté le 19 octobre 2024).

Portail de l’intelligence artificielle

[Shumailov-2024-1] {a b c d e et f} (en) Ilia Shumailov, Zakhar Shumaylov, Yiren Zhao et Nicolas Papernot, « AI models collapse when trained on recursively generated data », Nature, vol. 631, n^o 8022,‎ juillet 2024, p. 755–759 (ISSN 1476-4687, PMCID 11269175, DOI 10.1038/s41586-024-07566-y, lire en ligne).

[2] (en) Ilkhan Ozsevim, « Research finds ChatGPT & Bard headed for 'Model Collapse' », sur aimagazine.com, 20 juin 2023 (consulté le 19 octobre 2024).

[3] (en-US) Aaron Mok, « A disturbing AI phenomenon could completely upend the internet as we know it », Business Insider (consulté le 6 mars 2024).

[4] (en) Sierra Wyllie, Ilia Shumailov et Nicolas Papernot, The 2024 ACM Conference on Fairness, Accountability, and Transparency, New York, NY, USA, Association for Computing Machinery, coll. « FAccT '24 », 5 juin 2024, 2113–2147 p. (ISBN 979-8-4007-0450-5, DOI 10.1145/3630106.3659029, arXiv 2403.07857), « Fairness Feedback Loops: Training on Synthetic Data Amplifies Bias ».

[5] (en) Micholas De Rosa, « How the new version of ChatGPT generates hate and disinformation on command », sur CBC, 31 mai 2024 (consulté le 13 juin 2024).

[6] (en-US) Kyle Orland, « Google’s “AI Overview” can give false, misleading, and dangerous answers », sur Ars Technica, 24 mai 2024 (consulté le 19 octobre 2024).

[7] (en) « Self-Consuming Generative Models Go MAD » (lire en ligne)
—The Twelfth International Conference on Learning Representations.

[8] (en) « What is Model Collapse and how to avoid it », The Register (consulté le 11 juillet 2024).

[9] (en) « Big brains divided over training AI with more AI: Is model collapse inevitable? », The Register (consulté le 11 juillet 2024).

[10] (en) Ruixiang Tang, Yu-Neng Chuang et Xia Hu, « The Science of Detecting LLM-Generated Text », Communications of the ACM, vol. 67, n^o 4,‎ 25 mars 2024, p. 50–59 (ISSN 0001-0782 et 1557-7317, DOI 10.1145/3624725, lire en ligne, consulté le 19 octobre 2024).

[11] (en) John Kirchenbauer, Jonas Geiping, Yuxin Wen et Jonathan Katz, « A Watermark for Large Language Models », Proceedings of the 40th International Conference on Machine Learning, PMLR,‎ 3 juillet 2023, p. 17061–17084 (lire en ligne).

[12] (en-US) « My AI Safety Lecture for UT Effective Altruism », Shtetl-Optimized, 29 novembre 2022 (consulté le 22 juin 2024).

[Alemohammad-2023-13] {a et b} Alemohammad, S., Casco-Rodriguez, J., Luzi, L., Humayun, A. I., Babaei, H., LeJeune, D., ... & Baraniuk, R. G. (2023). Self-consuming generative models go mad. arXiv preprint arXiv:2307.01850. | url=https://arxiv.org/abs/2307.01850

[14] (en) Elvis Dohmatob, Yunzhen Feng et Julia Kempe, « Model Collapse Demystified: The Case of Regression », 12 février 2024.

[15] (en) Elvis Dohmatob, Yunzhen Feng et Pu Yang, « A Tale of Tails: Model Collapse as a Change of Scaling Laws », 10 février 2024.

[16] (en) Mohamed El Amine Seddik, « How Bad is Training on Synthetic Data? A Statistical Analysis of Language Model Collapse », 7 avril 2024.

[17] (en) Yanzhu Guo, « The Curious Decline of Linguistic Diversity: Training Language Models on Synthetic Text », 16 avril 2024.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]