Menschliches gegen den Modellkollaps

Vor kurzem hatte ich auf den Kommentar von Nanna Bonde Thylstrup in der New York Times hingewiesen, in dem sie auf die Wichtigkeit der Bewahrung unseres kollektiven digitalen Gedächtnisses hinweist [1]. Nun bin ich auf eine Studie gestoßen, die Ende Mai von Forschern der Universitäten Oxford, Cambridge, Edinburgh, Toronto und des Imperial College London veröffentlicht wurde [2]. Sie nähert sich der Datenbewahrung aus einer weiteren Perspektive.

Die Forscher haben in ihrer Arbeit eine aufschlussreiche Entdeckung gemacht: „We find that use of model-generated content in training causes irreversible defects in the resulting models, where tails of the original content distribution disappear.“ [3] Dieses Phänomen bezeichnen die Autoren als „model collapse“. Da große Sprachmodelle mit enormen Datenmengen trainiert werden müssen, werden für ihr Training häufig automatisch Texte aus dem Internet gesammelt. Das Internet jedoch wird indessen mit von KI erzeugten Texten gefüllt [4]. Um also auch in Zukunft neue Modelle trainieren zu können, ist es unerlässlich, sicherzustellen, dass der Zugang zur ursprünglichen Datenquelle gewährleistet ist und im Laufe der Zeit zusätzliche Daten, die nicht von Large Language Models (LLMs) generiert werden, verfügbar bleiben.

Als Beispiel sei auf die Diskussion um den Einsatz von KI zur Generierung von Inhalten bei Wikipedia hingewiesen, welche die komplexen Herausforderungen widerspiegelt, die das Bewahren bestehender Inhalte und das Erstellen neuer aufwirft. Einige Mitglieder der Wikipedia-Community befürworten die Verwendung von KI zur Erstellung von Artikeln, während andere eine umfassende Überprüfung durch Menschen fordern, um die Qualität der Inhalte zu gewährleisten und die Überflutung von Artikeln mit fehlerhaften oder voreingenommenen Inhalten zu vermeiden [5].

Grundsätzlich ist gegen die Zuhilfenahme von KI bei Wikipedia und darüber hinaus nichts einzuwenden. Entscheidend ist viel mehr, dass die KI menschlicher Kontrolle unterliegt und von KI erzeugte Inhalte kenntlich gemacht sind. Zugleich sollte bestehendes Material, also unser kollektives digitales Gedächtnis, nicht nur für KI-Trainingszwecke gesichert werden.

Endnoten

  1. Siehe meinen Blogartikel vom 25. Juni 2023 oder den Originalartikel: Thylstrup, Nanna Bonde. „The World’s Digital Memory Is at Risk“. The New York Times, 21. Juni 2023, Abschn. Opinion. https://www.nytimes.com/2023/06/21/opinion/digital-archives-memory.html.
  2. Shumailov, Ilia, Zakhar Shumaylov, Yiren Zhao, Yarin Gal, Nicolas Papernot, and Ross Anderson. “The Curse of Recursion: Training on Generated Data Makes Models Forget.” arXiv, 31. Mai 2023. http://arxiv.org/abs/2305.17493.
  3. Shumailov u. a. 2023, 1.
  4. Siehe etwa Vincent, James. „AI Is Killing the Old Web, and the New Web Struggles to Be Born“. The Verge, 26. Juni 2023. https://www.theverge.com/2023/6/26/23773914/ai-large-language-models-data-scraping-generation-remaking-web.
  5. Woodcock, Claire. „AI Is Tearing Wikipedia Apart“. Vice, 2. Mai 2023. https://www.vice.com/en/article/v7bdba/ai-is-tearing-wikipedia-apart.