Wikipedia gibt’s jetzt auch für deinen Chatbot

Daten – also Texte, Bilder, Videos etc. – sind für die Entwicklung von KI Modellen wichtig. Um ein modernes, großes KI Modell zu trainieren, braucht man sehr viele Daten, im Grunde alle, die sich irgendwie auftreiben lassen. Doch schlicht alles zu nutzen, was man im Internet findet, bringt zwangsläufig eine Reihe von Problemen (Urheberrecht, Bias, Datenschutz) mit sich. Deshalb legt kaum ein KI-Modell-Entwickler offen, welche Daten tatsächlich zum Training verwendet werden. Unstrittig ist jedoch, dass die Bestandteile des Wikimedia Universums – also Wikipedia, Commons, Wikidata etc. – in praktisch allen Modellen eine essenzielle Säule des Trainingsdatensatzes bilden. Nirgendwo sonst findet sich eine ähnliche große Menge freien, hochwertigen Materials – und genau diese Nachfrage bekommt Wikimedia zu spüren: Inzwischen stammen 65 % der ressourcenintensiven Aufrufe nicht mehr von Menschen, sondern von KI Crawlern, die massenhaft Artikel und Medien herunterladen.

Ein Schritt, um dem zu begegnen, ist nun wohl erfolgt, denn am 16. April 2025 veröffentlichte Wikimedia auf der Plattform Kaggle in einer Testphase alle englischen und französischen Artikel der Wikipedia in maschinenlesbarer Form und gibt auch gleich ein paar Anregungen zum Gebrauch der Daten mit:

„The dataset in its structured form is generally helpful for a wide variety of tasks, including all phases of model development, from pre-training to alignment, fine-tuning, updating/RAG as well as testing/benchmarking.”

Die Wikipedia Inhalte in weiteren Sprachen sollen folgen, und für die Mediendateien werden voraussichtlich ähnliche Projekte entstehen. Zugleich führt uns dieses Vorhaben vor Augen, dass alles, was im Web veröffentlicht wird, immer für Mensch und Maschine veröffentlicht wird – und diese beiden stellen unterschiedliche Anforderungen an den Inhalt.