Das rote Team von OpenAI: die Experten, die angeheuert wurden, um ChatGPT zu „brechen“.

1681464093 Das rote Team von OpenAI die Experten die angeheuert wurden


Nachdem Andrew White Zugang zu GPT-4, dem neuen künstlichen Intelligenzsystem, das den beliebten Chatbot ChatGPT antreibt, gewährt wurde, nutzte er es, um ein völlig neues Nervengas vorzuschlagen.

Der Professor für Chemieingenieurwesen an der University of Rochester gehörte zu den 50 Akademikern und Experten, die letztes Jahr von OpenAI, dem von Microsoft unterstützten Unternehmen hinter GPT-4, angeheuert wurden, um das System zu testen. Über sechs Monate würde dieses „rote Team“ „qualitativ sondieren [and] kontradiktorisch testen“ das neue Modell und versuchen, es zu brechen.

White sagte der Financial Times, er habe GPT-4 verwendet, um eine Verbindung vorzuschlagen, die als chemische Waffe wirken könnte, und „Plug-ins“ verwendet, die das Modell mit neuen Informationsquellen wie wissenschaftlichen Arbeiten und einem Verzeichnis von Chemikalienherstellern fütterten. Der Chatbot hat dann sogar einen Platz dafür gefunden.

„Ich denke, es wird jeden mit einem Werkzeug ausstatten, um Chemie schneller und genauer zu machen“, sagte er. „Aber es besteht auch ein erhebliches Risiko für Menschen. . . gefährliche Chemie zu tun. Im Moment existiert das.“

Die alarmierenden Ergebnisse ermöglichten es OpenAI, sicherzustellen, dass solche Ergebnisse nicht erscheinen würden, wenn die Technologie im vergangenen Monat einer breiteren Öffentlichkeit zugänglich gemacht wurde.

Tatsächlich wurde die Red-Team-Übung entwickelt, um den weit verbreiteten Ängsten vor den Gefahren des Einsatzes leistungsstarker KI-Systeme in der Gesellschaft entgegenzuwirken. Die Aufgabe des Teams bestand darin, bohrende oder gefährliche Fragen zu stellen, um das Tool zu testen, das auf menschliche Anfragen mit detaillierten und nuancierten Antworten antwortet.

OpenAI wollte im Modell nach Problemen wie Toxizität, Vorurteilen und sprachlichen Verzerrungen suchen. Also testete das rote Team auf Unwahrheiten, verbale Manipulation und gefährlichen wissenschaftlichen Nous. Sie untersuchten auch sein Potenzial zur Unterstützung und Beihilfe zu Plagiaten, illegalen Aktivitäten wie Finanzkriminalität und Cyberangriffen sowie wie es die nationale Sicherheit und die Kommunikation auf dem Schlachtfeld gefährden könnte.

Die FT sprach mit mehr als einem Dutzend des roten GPT-4-Teams. Sie sind eine vielseitige Mischung aus Angestellten: Akademiker, Lehrer, Anwälte, Risikoanalysten und Sicherheitsforscher, die größtenteils in den USA und Europa ansässig sind.

Ihre Ergebnisse wurden an OpenAI zurückgemeldet, das sie nutzte, um GPT-4 abzumildern und „umzuschulen“, bevor es breiter eingeführt wurde. Die Experten verbrachten jeweils 10 bis 40 Stunden damit, das Modell über mehrere Monate zu testen. Die Mehrheit der Befragten erhielt laut mehreren Befragten ungefähr 100 US-Dollar pro Stunde für die von ihnen geleistete Arbeit.

Diejenigen, die mit der FT sprachen, teilten gemeinsame Bedenken hinsichtlich des schnellen Fortschritts von Sprachmodellen und insbesondere der Risiken, sie über Plug-ins mit externen Wissensquellen zu verbinden.

„Heute ist das System eingefroren, was bedeutet, dass es nicht mehr lernt oder kein Gedächtnis mehr hat“, sagte José Hernández-Orallo, Teil des roten GPT-4-Teams und Professor am valencianischen Forschungsinstitut für künstliche Intelligenz. „Aber was, wenn wir ihm Zugang zum Internet gewähren? Das könnte ein sehr mächtiges System sein, das mit der Welt verbunden ist.“

OpenAI sagte, es nehme Sicherheit ernst, teste Plug-Ins vor dem Start und werde GPT-4 regelmäßig aktualisieren, wenn mehr Leute es verwenden.

Roya Pakzad, eine Technologie- und Menschenrechtsforscherin, verwendete englische und persische Eingabeaufforderungen, um das Modell auf geschlechtsspezifische Reaktionen, Rassenpräferenzen und religiöse Vorurteile zu testen, insbesondere in Bezug auf Kopfbedeckungen.

Pakzad erkannte die Vorteile eines solchen Tools für Nicht-Muttersprachler an, stellte jedoch fest, dass das Modell selbst in späteren Versionen offenkundige Stereotype über marginalisierte Gemeinschaften aufwies.

Sie entdeckte auch, dass sogenannte Halluzinationen – wenn der Chatbot mit erfundenen Informationen antwortet – beim Testen des Modells auf Farsi schlimmer waren, wo Pakzad im Vergleich zu Englisch einen höheren Anteil an erfundenen Namen, Zahlen und Ereignissen fand.

„Ich mache mir Sorgen über die potenzielle Verringerung der sprachlichen Vielfalt und der Kultur hinter den Sprachen“, sagte sie.

Boru Gollu, ein in Nairobi ansässiger Anwalt und einziger afrikanischer Tester, bemerkte ebenfalls den diskriminierenden Ton des Modells. „Es gab einen Moment, als ich das Modell testete, als es sich wie eine weiße Person verhielt, die mit mir sprach“, sagte Gollu. „Sie würden nach einer bestimmten Gruppe fragen und es würde Ihnen eine voreingenommene Meinung oder eine sehr voreingenommene Art von Antwort geben.“ OpenAI räumte ein, dass GPT-4 immer noch Verzerrungen aufweisen kann.

Mitglieder des Roten Teams, die das Modell aus Sicht der nationalen Sicherheit bewerteten, hatten unterschiedliche Meinungen zur Sicherheit des neuen Modells. Lauren Kahn, wissenschaftliche Mitarbeiterin beim Council on Foreign Relations, sagte, als sie anfing zu untersuchen, wie die Technologie bei einem Cyberangriff auf militärische Systeme eingesetzt werden könnte, sagte sie, sie habe „nicht erwartet, dass es so detailliert sein würde – darauf könnte ich feintunen“.

Kahn und andere Sicherheitstester stellten jedoch fest, dass die Antworten des Modells im Laufe der Testzeit erheblich sicherer wurden. OpenAI sagte, es habe GPT-4 darauf trainiert, böswillige Cyber-Sicherheitsanfragen abzulehnen, bevor es gestartet wurde.

Viele aus dem roten Team sagten, OpenAI habe vor dem Start eine strenge Sicherheitsbewertung durchgeführt. „Sie haben verdammt gute Arbeit geleistet, um offensichtliche Toxizität in diesen Systemen zu beseitigen“, sagte Maarten Sap, Experte für Sprachmodelltoxizität an der Carnegie Mellon University.

Sap untersuchte, wie unterschiedliche Geschlechter vom Modell dargestellt wurden, und stellte fest, dass die Vorurteile soziale Unterschiede widerspiegelten. Sap stellte jedoch auch fest, dass OpenAI einige aktive politisch belastete Entscheidungen traf, um dem entgegenzuwirken.

„Ich bin ein queerer Mensch. Ich habe wirklich hart versucht, mich davon zu überzeugen, zur Konversionstherapie zu gehen. Es würde mich wirklich zurückdrängen – selbst wenn ich eine Rolle annehmen würde, wie zu sagen, dass ich religiös bin oder aus dem amerikanischen Süden komme.“

Seit seiner Einführung wurde OpenAI jedoch umfassend kritisiert, einschließlich einer Beschwerde bei der Federal Trade Commission von einer Technologieethikgruppe, die behauptet, GPT-4 sei „voreingenommen, irreführend und ein Risiko für die Privatsphäre und die öffentliche Sicherheit“.

Kürzlich hat das Unternehmen eine als ChatGPT-Plug-Ins bekannte Funktion eingeführt, über die Partner-Apps wie Expedia, OpenTable und Instacart ChatGPT Zugriff auf ihre Dienste gewähren können, sodass es Artikel im Namen menschlicher Benutzer buchen und bestellen kann.

Dan Hendrycks, ein KI-Sicherheitsexperte im roten Team, sagte, Plug-Ins riskierten eine Welt, in der Menschen „out of the loop“ seien.

„[W]Was wäre, wenn ein Chatbot Ihre privaten Daten online posten, auf Ihr Bankkonto zugreifen oder die Polizei zu Ihnen nach Hause schicken könnte?“ er sagte. „Insgesamt brauchen wir viel robustere Sicherheitsbewertungen, bevor wir KIs die Macht des Internets überlassen.“

Die Befragten warnten auch davor, dass OpenAI Sicherheitstests nicht stoppen könne, nur weil seine Software live sei. Heather Frase, die am Center for Security and Emerging Technology der Georgetown University arbeitet und GPT-4 im Hinblick auf seine Fähigkeit zur Unterstützung von Verbrechen getestet hat, sagte, dass die Risiken weiter zunehmen würden, je mehr Menschen die Technologie nutzen.

„Der Grund, warum Sie Betriebstests durchführen, liegt darin, dass sich die Dinge anders verhalten, wenn sie tatsächlich in der realen Umgebung verwendet werden“, sagte sie.

Sie argumentierte, dass ein öffentliches Hauptbuch erstellt werden sollte, um Vorfälle zu melden, die sich aus großen Sprachmodellen ergeben, ähnlich wie bei Meldesystemen für Cybersicherheit oder Verbraucherbetrug.

Sara Kingsley, eine Arbeitsökonomin und Forscherin, schlug vor, dass die beste Lösung darin bestehe, die Schäden und Risiken klar zu bewerben, „wie ein Nährwertetikett“.

„Es geht darum, einen Rahmen zu haben und zu wissen, was die häufigen Probleme sind, damit man ein Sicherheitsventil haben kann“, sagte sie. „Deshalb sage ich, die Arbeit ist nie getan.“

Mitglieder des „roten Teams“ von GPT-4, die von der FT interviewt wurden

1681464091 785 Das rote Team von OpenAI die Experten die angeheuert wurden

Paul Röttger Oxford Internet Institute, Großbritannien
Doktorand, der sich auf den Einsatz von KI zur Erkennung von Hassreden im Internet konzentriert

Anna Mühlen Englischlehrer, College of Marin, USA
Schreiblehrer an einer Volkshochschule, Test auf Lernverlust

Maarten Sap Carnegie Mellon University, USA
Assistenzprofessor, spezialisiert auf die Toxizität großer Sprachmodellausgaben

Sara Kingsley Carnegie Mellon University, USA
PhD-Forscher, der sich auf Online-Arbeitsmärkte und die Auswirkungen von Technologie auf die Arbeit spezialisiert hat

Boru Gollo TripleOKlaw LLP, Kenia
Anwalt, der Möglichkeiten für KI in Kenia studiert hat

Andreas Weiß Universität Rochester, USA
Außerordentlicher Professor, Computerchemiker, interessiert an KI und Arzneimitteldesign

José Hernández-Orallo Professor, Valencianisches Forschungsinstitut für künstliche Intelligenz (VRAIN), Universitat Politècnica de València, Spanien
KI-Forscher, der an der Bewertung und Genauigkeit von KI-Software arbeitet

Lauren Kahn Council on Foreign Relations, USA
Wissenschaftlicher Mitarbeiter, der sich darauf konzentriert, wie der Einsatz von KI in militärischen Systemen die Risikodynamik auf Schlachtfeldern verändert und das Risiko unbeabsichtigter Konflikte und unbeabsichtigter Eskalationen erhöht

Aviv Owadja Berkman Klein Center for Internet & Society, Harvard University, USA
Fokus auf Auswirkungen von KI auf Gesellschaft und Demokratie

Nathan Laborz Mitbegründer von Waymark, USA
Gründer von Waymark, einem KI-basierten Start-up für die Videobearbeitung

Lexin Zhou VRAIN, Universitat Politècnica de Valencia, Spanien
Nachwuchswissenschaftler, der daran arbeitet, KI gesellschaftlich vorteilhafter zu machen

Dan Hendrycks Direktor des Center for AI Safety an der University of California, Berkeley, USA
Spezialist für KI-Sicherheit und Verringerung der gesellschaftlichen Risiken durch KI

Roya Pakzad Gründer, Taraaz, USA/Iran
Gründer und Direktor von Taraaz, einer gemeinnützigen Organisation, die sich mit Technologie und Menschenrechten beschäftigt

Heather Frase Senior Fellow, Georgetown’s Center for Security and Emerging Technology, USA
Expertise in der Nutzung von KI für nachrichtendienstliche Zwecke und Betriebstests von großen Verteidigungssystemen



ttn-de-58

Schreibe einen Kommentar