Unternehmen der künstlichen Intelligenz erkunden einen neuen Weg, um die riesigen Datenmengen zu erhalten, die für die Entwicklung leistungsstarker generativer Modelle erforderlich sind: die Erstellung der Informationen von Grund auf.
Microsoft, OpenAI und Cohere gehören zu den Gruppen, die die Verwendung sogenannter „synthetischer Daten“ testen – computergenerierte Informationen zum Trainieren ihrer KI-Systeme, sogenannte Large Language Models (LLMs) –, da sie an die Grenzen menschengemachter Daten stoßen kann die Spitzentechnologie weiter verbessern.
Die Einführung des von Microsoft unterstützten ChatGPT von OpenAI im vergangenen November hat zu einer Flut von Produkten geführt, die dieses Jahr von Unternehmen wie Google und Anthropic öffentlich vorgestellt wurden und die als Reaktion auf einfache Eingabeaufforderungen plausible Texte, Bilder oder Code erzeugen können.
Die als generative KI bekannte Technologie hat zu einem Anstieg des Interesses von Investoren und Verbrauchern geführt, wobei die größten Technologieunternehmen der Welt, darunter Google, Microsoft und Meta, um die Vorherrschaft in diesem Bereich wetteifern.
Derzeit werden LLMs, die Chatbots wie ChatGPT von OpenAI und Bard von Google antreiben, hauptsächlich durch Scraping des Internets trainiert. Zu den zum Trainieren dieser Systeme verwendeten Daten gehören unter anderem digitalisierte Bücher, Nachrichtenartikel, Blogs, Suchanfragen, Twitter- und Reddit-Beiträge, YouTube-Videos und Flickr-Bilder.
Anschließend werden Menschen eingesetzt, um Feedback zu geben und Informationslücken zu schließen. Dies geschieht in einem Prozess, der als Reinforcement Learning by Human Feedback (RLHF) bezeichnet wird.
Da generative KI-Software jedoch immer ausgefeilter wird, gehen selbst finanzstarken KI-Unternehmen die leicht zugänglichen und qualitativ hochwertigen Daten aus, mit denen sie trainieren können. Mittlerweile stehen sie wegen der Menge und Herkunft der von der Technologie verbrauchten personenbezogenen Daten unter Beschuss von Aufsichtsbehörden, Künstlern und Medienorganisationen auf der ganzen Welt.
Bei einer Veranstaltung in London im Mai wurde OpenAI-Chef Sam Altman gefragt, ob er sich Sorgen über behördliche Untersuchungen zu potenziellen Datenschutzverletzungen von ChatGPT mache. Altman wies das zurück und sagte, er sei „ziemlich zuversichtlich, dass bald alle Daten synthetische Daten sein werden“.
Generische Daten aus dem Web reichen laut Entwicklern nicht mehr aus, um die Leistung von KI-Modellen zu steigern.
„Wenn Sie alle benötigten Daten aus dem Internet abrufen könnten, wäre das fantastisch“, sagte Aidan Gomez, CEO des 2-Milliarden-Dollar-LLM-Start-ups Cohere. „In Wirklichkeit ist das Internet so verrauscht und chaotisch, dass es die gewünschten Daten nicht wirklich repräsentiert. Das Internet kann einfach nicht alles, was wir brauchen.“
Derzeit erreichen die modernsten Modelle, wie z. B. GPT-4 von OpenAI, in Bereichen wie Schreiben und Codieren eine Leistung auf menschlichem Niveau und sind in der Lage, Benchmarks wie die US-Anwaltsprüfung zu bestehen.
Um ihre Leistung drastisch zu verbessern und Herausforderungen in Wissenschaft, Medizin oder Wirtschaft bewältigen zu können, benötigen KI-Modelle einzigartige und anspruchsvolle Datensätze. Diese müssen entweder von Weltexperten wie Wissenschaftlern, Ärzten, Autoren, Schauspielern oder Ingenieuren erstellt oder als proprietäre Daten von großen Unternehmen wie Pharmaunternehmen, Banken und Einzelhändlern erworben werden. Allerdings „vom Menschen erstellte Daten …“ . . ist extrem teuer“, sagte Gomez.
Der neue Trend zur Verwendung synthetischer Daten umgeht diese kostspielige Anforderung. Stattdessen können Unternehmen KI-Modelle verwenden, um Texte, Codes oder komplexere Informationen im Zusammenhang mit Gesundheits- oder Finanzbetrug zu erstellen. Diese synthetischen Daten werden dann verwendet, um fortgeschrittene LLMs so zu trainieren, dass sie immer leistungsfähiger werden.
Laut Gomez verwenden Cohere und mehrere seiner Konkurrenten bereits synthetische Daten, die dann von Menschen verfeinert und optimiert werden. „[Synthetic data] ist schon riesig. . . auch wenn es nicht weit verbreitet ist“, sagte er.
Um beispielsweise ein Modell in fortgeschrittener Mathematik zu trainieren, könnte Cohere zwei miteinander kommunizierende KI-Modelle verwenden, wobei eines als Mathematiklehrer und das andere als Schüler fungiert.
„Sie führen ein Gespräch über Trigonometrie. . . und es ist alles synthetisch“, sagte Gomez. „Das Modell hat sich alles nur eingebildet. Und dann schaut sich der Mensch dieses Gespräch an und korrigiert es, wenn das Modell etwas Falsches gesagt hat. Das ist der Status quo heute.“
Zwei aktuelle Studien von Microsoft Research zeigten, dass synthetische Daten zum Trainieren von Modellen verwendet werden könnten, die kleiner und einfacher sind als modernste Software wie GPT-4 von OpenAI oder PaLM-2 von Google.
In einem Artikel wurde ein synthetischer Datensatz von Kurzgeschichten beschrieben, der von GPT-4 generiert wurde und nur Wörter enthielt, die ein typischer Vierjähriger verstehen könnte. Dieser Datensatz, bekannt als TinyStories, wurde dann verwendet, um ein einfaches LLM zu trainieren, das in der Lage war, flüssige und grammatikalisch korrekte Geschichten zu produzieren. Das andere Papier zeigten, dass KI in Form von Lehrbüchern und Übungen auf synthetischen Python-Code trainiert werden konnte, der ihrer Meinung nach bei Codierungsaufgaben relativ gut funktionierte.
Start-ups wie Scale AI und Gretel.ai sind entstanden, um synthetische Daten als Service bereitzustellen. Gretel wurde von ehemaligen US-Geheimdienstanalysten der National Security Agency und der CIA gegründet und arbeitet mit Unternehmen wie Google, HSBC, Riot Games und Illumina zusammen, um deren vorhandene Daten mit synthetischen Versionen zu erweitern, die dabei helfen können, bessere KI-Modelle zu trainieren.
Laut Gretel-Chef Ali Golshan besteht die Schlüsselkomponente synthetischer Daten darin, dass sie die Privatsphäre aller Personen in einem Datensatz schützen und gleichzeitig ihre statistische Integrität wahren.
Gut gestaltete synthetische Daten können auch Verzerrungen und Ungleichgewichte in vorhandenen Daten beseitigen, fügte er hinzu. „Hedgefonds können sich Black-Swan-Ereignisse ansehen und beispielsweise hundert Variationen erstellen, um zu sehen, ob unsere Modelle funktionieren“, sagte Golshan. Für Banken, bei denen Betrug typischerweise weniger als ein Hundertstel Prozent der Gesamtdaten ausmacht, kann die Software von Gretel „Tausende Randfallszenarien zu Betrug und Zug“ generieren [AI] Modelle damit.“
Kritiker weisen darauf hin, dass nicht alle synthetischen Daten sorgfältig kuratiert werden, um reale Daten widerzuspiegeln oder zu verbessern. Da KI-generierte Texte und Bilder beginnen, das Internet zu füllen, ist es wahrscheinlich, dass KI-Unternehmen, die das Internet nach Trainingsdaten durchsuchen, unweigerlich Rohdaten verwenden werden, die von primitiven Versionen ihrer eigenen Modelle erzeugt wurden – ein Phänomen, das als „Dogfooding“ bekannt ist. .
Forschung von Universitäten wie Oxford und Cambridge, warnten kürzlich, dass das Training von KI-Modellen anhand ihrer eigenen Rohergebnisse, die Unwahrheiten oder Erfindungen enthalten können, die Technologie im Laufe der Zeit beschädigen und verschlechtern könnte, was zu „irreversiblen Defekten“ führen könnte.
Golshan stimmt zu, dass Schulungen auf der Grundlage schlechter synthetischer Daten den Fortschritt behindern könnten. „Die Inhalte im Web werden zunehmend KI-generiert, und ich denke, dass dies mit der Zeit zu einer Verschlechterung führen wird [because] LLMs produzieren wiedergewonnenes Wissen, ohne neue Erkenntnisse“, sagte er.
Trotz dieser Risiken sagen KI-Forscher wie Gomez von Cohere, dass synthetische Daten das Potenzial haben, den Weg zu superintelligenten KI-Systemen zu beschleunigen.
„Was Sie wirklich wollen, sind Models, die in der Lage sind, sich selbst etwas beizubringen. Sie möchten, dass sie dazu in der Lage sind. . . Stellen Sie ihre eigenen Fragen, entdecken Sie neue Wahrheiten und schaffen Sie ihr eigenes Wissen“, sagte er. „Das ist der Traum.“