Maschinelles Vergessen

Google hat die erste „Machine Unlearning Challenge“ angekündigt. Beim „maschinellen Vergessen“, einem neuen Bereich des maschinellen Lernens, geht es darum, bestimmte Daten aus einem bestehenden Modell zu entfernen.

Diese Aufgabe ist nicht trivial, da Daten nicht einfach aus einem trainierten Modell gelöscht werden können, wie es bei einer Datenbank der Fall ist. Unter „Membership Inference Attacks“ versteht man Angriffe, die es ermöglichen, die zum Training eines Modells verwendeten Daten zu erkennen, auch wenn kein Zugang zu den Trainingsdaten besteht. Es ist daher notwendig, Methoden zu entwickeln, die in der Lage sind, Daten aus einem bestehenden Modell zu entfernen.

Natürlich wäre es am einfachsten, die Daten vor dem Training aus dem Datensatz zu entfernen. Dieser Weg ist jedoch kostspielig. Die Kosten für das Training großer Sprachmodelle wie GPT-4 oder LLaMA können in die Millionen gehen. Jede Änderung im Datensatz würde ein neues Training erfordern. Angesichts der hohen Kosten eines solchen Trainings erscheint dieser Ansatz nur bedingt praktikabel.