Textbasierte Datenabfragen: Data Commons integriert KI

von Leslie P. Zimmermann | Veröffentlicht am 23.09.2023

Data Commons, ein von Google initiiertes Open-Source-Projekt, betreibt einen Knowledge Graph, der auf bereits bestehenden, offizielle Datenquellen wie Eurostat oder der Weltbank basiert. Neu ist, dass Abfragen im Knowledge Graph nun mittels Texteingabe über ein Sprachmodell realisiert werden können. Dabei erteilt Google dem Sprachmodell sinnvollerweise nur eingeschränkte Berechtigungen.

Screenshot von Data Commons, 23.09.2023.

Trotz Fortschritten bei der Standardisierung und Zugänglichmachung dieser Daten erfordert die Nutzung immer noch einen erheblichen Zeitaufwand und oft auch Programmierkenntnisse. Um diesen Prozess zu vereinfachen, setzt das Projekt nun auf Large Language Models (LLMs), um eine natürlichsprachliche Schnittstelle zu ermöglichen. So können etwa Fragen wie „What is the population of Germany?“ an den Knowledge Graph gestellt werden und dieser liefert die Antwort, wenn entsprechende Daten vorhanden sind.

Google betont, dass das Sprachmodell nur dazu verwendet wird, die Frage in eine Anfrage umzuwandeln, die Daten kommen ausschließlich von Data Commons, thus the output is not generated by the LLM. This approach allows Data Commons to avoid some of the current known limitations of LLMs around factuality in some instances.

Die Entwickler tun hier gut daran, die Berechtigungen des Sprachmodells zu limitieren, da Sprachmodelle mitunter Zahlen erfinden können und es schwierig ist, mögliche Fehler in einem großen Datensatz zu identifizieren. Dieser Ansatz zeigt eine erfreulich sinnvolle Anwendung für große Sprachmodelle.