Die großen Datenfresser: KI-Technologien und ihr unendlicher Bedarf
Ein wesentlicher Aspekt für die Leistungsfähigkeit von KI-Modellen wie GPT-4 oder Gemini ist die Qualität und der Umfang der Trainingsdaten. Wie ein kürzlich im Wall Street Journal erschienener Artikel mit dem Titel „For Data-Guzzling AI Companies, the Internet Is Too Small“ verdeutlicht, ist die schiere Menge der benötigten Daten überwältigend. KI-Modelle werden mit enormen Informationsmengen gefüttert, was wichtige Fragen zu den moralischen und rechtlichen Rahmenbedingungen des Trainings aufwirft. Vor diesem Hintergrund sind Unternehmen zunehmend zurückhaltend, wenn es um die Offenlegung der Datenherkunft geht.
Ein kürzlich in der New York Times veröffentlichter Artikel wirft Licht auf dieses dunkle Feld, indem er beschreibt, wie führende Technologieunternehmen wie OpenAI, Google und Meta ihre eigenen Richtlinien anpassen und sogar die Umgehung von Urheberrechtsgesetzen diskutieren, um ihre KI-Systeme zu trainieren. Die New York Times berichtet beispielsweise über die Praxis von OpenAI, die Tonspuren von YouTube-Videos in Text umzuwandeln, um die eigenen Modelle zu trainieren, obwohl dies möglicherweise gegen die Nutzungsbedingungen von YouTube verstößt.
Der Times-Artikel geht auch auf die Änderungen der Nutzungsbedingungen von Google im letzten Jahr ein, die auch in diesem Blog diskutiert wurden. Google hat seine Nutzungsbedingungen erweitert, um möglicherweise den Zugang zu Daten aus Google-Diensten für seine KI-Anwendungen zu erleichtern. Interessanterweise wurde diese neue Richtlinie, wie die Times berichtet, absichtlich am 1. Juli veröffentlicht, um die geringere Aufmerksamkeit während des Feiertagswochenendes zum Unabhängigkeitstag auszunutzen.
Eine weitere Entwicklung, die in dem Artikel der Times beschrieben wird, betrifft synthetische Daten, die zunehmend von Unternehmen wie OpenAI verwendet werden, um den Mangel an qualitativ hochwertigen Trainingsdaten auszugleichen. Diese synthetisch generierten Daten sollen die Effizienz des Trainings verbessern, ohne auf urheberrechtlich geschütztes Material zurückgreifen zu müssen. Wie bereits in diesem Blog erwähnt, ist diese Praxis jedoch nicht unproblematisch, da Fehler in den generierten Daten immer wieder reproduziert werden.
Die Diskussion um die Herkunft von Trainingsdaten für die Entwicklung von KI-Modellen wird wohl auch in Zukunft intensiv geführt werden. Seien es juristische Auseinandersetzungen wie die Klage der New York Times gegen OpenAI und Microsoft, technologische Diskussionen um die Verwendung synthetischer Daten oder moralische Überlegungen - wir befinden uns an einem kritischen Punkt, an dem die Möglichkeiten der Technologie auf die Grenzen des Datenschutzes und des Urheberrechts treffen. Es ist von entscheidender Bedeutung, dass Unternehmen transparenter machen, woher sie ihre Daten beziehen und wie sie sie verarbeiten.