Von der Intelligenz zur Dummheit: Die Komplexität der KI-Debatte

Die jüngste Diskussion über die vermeintlichen Leistungseinbußen der Software ChatGPT ist ein aufschlussreiches Beispiel für den aktuellen Zustand der KI-Debatte. In Foren verbreitete Klagen über eine spürbare Veränderung in der Leistung der Sprachmodelle GPT 3.5 und GPT-4, welche die Software ChatGPT antreiben, fanden ein Echo in der medialen Berichterstattung und wurden durch einen Fachartikel vom 18. Juli 2023 weiter angefacht. Dieser wurde oft als Beweis interpretiert, dass tatsächlich Leistungseinbußen aufgetreten seien.

Zwei Forscher der Princeton University stellten jedoch in einem Blogartikel klar:

„[…] the new paper doesn’t show that GPT-4 capabilities have degraded. But it is a valuable reminder that the kind of fine tuning that LLMs regularly undergo can have unintended effects, including drastic behavior changes on some tasks.“

OpenAI äußerte sich am 20. Juli 2023 nun ebenfalls und wies darauf hin, dass neue Versionen der Sprachmodelle mitunter Verhaltensveränderungen zeigen können:

„We look at a large number of evaluation metrics to determine if a new model should be released. While the majority of metrics have improved, there may be some tasks where the performance gets worse. This is why we allow API users to pin the model version. For example, you can use gpt-4-0314 instead of the generic gpt-4, which points to the latest model version. Each individually pinned model is stable, meaning that we won’t make changes that impact the outputs. […]
We understand that model upgrades and behavior changes can be disruptive to your applications. We are working on ways to give developers more stability and visibility into how we release and deprecate models.“

Infolgedessen hat OpenAI die Verfügbarkeit der Versionen gpt-3.5-turbo-0301, gpt-4-0314 und gpt-4-32k-0314 verlängert. Diese Maßnahme bietet den Entwickler:innen von Softwareprodukten, die auf den Schnittstellen dieser Modelle aufbauen, eine gewisse Planungssicherheit.

Obwohl das vorläufige Ergebnis der Debatte unspektakulär erscheinen mag, verdeutlicht die emotionale Intensität der letzten Woche doch, wie hitzig die Diskussion um die aktuellen KI-Entwicklungen geführt wird. Diese umfasst etwa technische Fragen wie die Möglichkeiten quantitativer Bewertungen von Sprachmodellen, ökonomische Aspekte wie die Planungssicherheit des Supportendes einer Schnittstelle und gesellschaftliche Debatten, die das Spannungsfeld zwischen künstlicher Intelligenz und Dummheit ausloten. Es ist wahrscheinlich, dass wir uns hierbei erst am Anfang eines langen Entzauberungsprozesses befinden, in dem sich die verschiedenen Akteure noch auf ein gemeinsames Zeichensystem einigen müssen.