“GPT-3 ist beeindruckend, versteht aber die Welt nicht wie wir”

GPT-3 hat einen Hype ausgelöst. Ist die Technologie die ganze Aufregung wert? Unser MT Engineer Ahmad Taie sagt: ja und nein.

 “GPT-3 ist beeindruckend, versteht aber die Welt nicht wie wir”
By:
Date:
Feb 26, 2021

GPT-3 hat einen ziemlichen Hype in der Welt der künstlichen Intelligenz ausgelöst. Die neueste Version des “Generative Pre-Trained Transformer” von Forschungsunternehmen OpenAI wird oft als revolutionär gehandelt. Wir haben mit unserem MT Engineer und Applied Research Lead Ahmad Taie darüber gesprochen, ob die Technologie die ganze Aufregung wert ist.

Ahmad, warum hat GPT-3 so einen Hype ausgelöst?

GPT-3 ist ein Sprachmodell und produziert ziemlich stimmige Texte, wenn es eine Benutzereingabe bekommt. Die Ergebnisse klingen sehr natürlich und es ist ziemlich schwer, sie von Texten zu unterscheiden, die ein Mensch geschrieben hat. Das bedeutet, dass GPT-3 es geschafft hat, ein durchaus nützliches Modell aus menschlicher Sprache zu formen - und es braucht dafür sehr viel weniger Kontext als bisherige Modelle. Schon das allein ist beeindruckend und der öffentlichen Aufmerksamkeit wert. Natürliche Sprache richtig gut hinzubekommen, war schon immer schwierig. Im Gegensatz zu kontrollierten Bereichen wie beispielsweise Schachspielen ist Sprache an sich eher unberechenbar. Ein anderer Auslöser für den Hype um GPT-3 ist die Frage, wie Technologie dieser Art die Menschheit und die Gesellschaft beeinflussen könnte. Sie entwickelt sich weiter, sie wird besser und einige Menschen - auch die Entwickler von GPT-3 - sehen in der missbräuchlichen Verwendung der Technologie eine potenzielle Bedrohung. Es wäre zum Beispiel relativ einfach Text zu generieren, um Fehlinformationen zu verbreiten. Das ist auch einer der Gründe, warum die Anwendung nicht mehr für alle zugänglich ist.

Neue Entwicklungen in der KI-Welt entfachen oft Diskussionen darüber, ob Technologie den Menschen ersetzen wird, wie in diesem Fall etwa Journalisten, weil GPT-3 ja einfach ihre Artikel schreiben könnte. Wie siehst du das?

GPT-3 liefert beeindruckende Ergebnisse. Wer mit dem Modell interagiert, wird aber relativ schnell feststellen, dass es nicht dasselbe Verständnis von der Welt hat wie wir Menschen. Es versucht hauptsächlich stimmigen Text zu generieren und der macht aber nicht immer Sinn. Dazu kommt, dass das Modell keine eigenen Absichten hat und immer einen Menschen braucht, der den Anstoß zur Textproduktion gibt.  

Wie funktioniert GPT-3?

Seine Größe - im Sinne von unfassbar vielen Parametern - ist maßgeblich für den Erfolg des Sprachmodells verantwortlich. Es wird mit riesigen Datenmengen und der recht einfachen Zielsetzung trainiert, das nächste Wort vorherzusagen, wenn der:die Nutzer:in ihm einen Satz vorgibt. So können Leute das Sprachmodell dann nach dem Training auch nutzen: Mit einem Textschnipsel als Input generiert es daraus eine Vervollständigung. GPT-3 ist quasi ein sehr schlaue Autocomplete. Um das Sprachmodell zu programmieren, füttern Datenspezialist:innen das Modell mit Textbeispielen des Musters, das das Tool dann generieren soll. Darauf aufbauend kann es so ziemlich alles produzieren, was eine Sprachstruktur hat: einen Textabsatz, eine Zusammenfassung, Antworten auf Fragen oder sogar Computercode. Wenn sich etwas als Textaufgabe formulieren lässt, kann sich GPT-3 mal dran versuchen.

Was findest du an GPT-3 faszinierend?

Ich finde es beeindruckend, wie ein Machine-Learning-Modell mit dieser einfachen Aufgabe so gut wird, wenn es vergrößert wird - bezogen auf das Modell und den Datensatz. Natürlich ist es immer noch sehr aufwändig, die passenden Rezepte zu finden, um das Modell erfolgreich zu trainieren. Trotzdem ist es sehr faszinierend, was die Macher von GPT-3 mit den Mitteln erreicht haben, die es aktuell gibt. Ich bin gespannt, was in der Zukunft möglich sein wird, wenn die Technologie weiter reift.

Was bedeutet die Weiterentwicklung von GPT-3 für den Bereich Neural Machine Translation?

GPT-3 ist eines der größten künstlichen neuronalen Netze, die es bislang gibt. Was wir feststellen können, ist das die Vergrößerung von Sprachmodellen und Datensätzen effizientere Modelle hervorbringt - mal abgesehen davon, dass sie dadurch auch viel mehr Rechnerleistung brauchen. Diese Erkenntnis ist für uns bei Lengoo wichtig, weil wir jeden Tag mit Low-Ressource-Domain-Daten - den Daten unserer Kund:innen - arbeiten. Die Ergebnisse unserer NMT sind schon extrem gut und GPT-3 zeigt uns, dass wir noch mehr aus der Technologie herausholen können.

GPT-3 hat immer noch so seine Problemchen, oder?

Die meisten Deep-Learning-Modelle wie GPT-3 neigen dazu, nicht besonders, nun ja, würdevoll zu versagen. Wer ein bisschen mit dem System herumspielt, findet schnell heraus, wie es sich mit etwas kreativerem Text oder einem ungewöhnlichen Schreibstil aus der Bahn werfen lässt. GPT-3 und ähnliche Machine-Learning-Modelle sind oft noch sehr brüchig, weil sie darauf trainiert sind, immer etwas zu generieren. Wenn man dann eine Wahrscheinlichkeitsverteilung trifft, auf die das Modell nicht gut trainiert wurde, dann generierte es Unsinn. Es wird sehr viel daran geforscht, genau diese Fälle zu reduzieren.

Der Text, den GPT-3 hervorbringt, klingt natürlich. Ist er aber auch qualitativ hochwertig?

Ich glaube, dass die Frage, die wir zuerst beantworten sollten heißt: Wie bestimmen wir eigentlich, was ein qualitativ hochwertiger Text ist? Das ist eine sehr subjektive Angelegenheit und wir Menschen haben noch keinen Weg gefunden, das automatisch und effektiv zu messen. Bei einem Englisch-Test in der Schule zum Beispiel bewerten verschiedene Lehrer die Texte unterschiedlich. Da Sprache der Kommunikation zwischen Menschen dient, werden die Empfänger der Sprache wohl auch die Ergebnisse am besten bewerten können. Wenn wir eine sehr gute Kennzahl finden würden, um “qualitativ hochwertigen Text” zu messen, dann könnte man ziemlich schnell Modelle entwickeln, die auch genau das generieren. Bis dahin kann man sich meiner Meinung nach nur anschauen, wie nützlich der maschinengenerierte Text ist und welchen Wert er bieten kann verglichen mit einem Text, den ein Mensch geschrieben hat.

Manche Kritiker behaupten, dass das Tool Diskriminierung fördert und eine unausgeglichene Weltsicht begünstigt. Stimmst du dem zu?

Ich würde mal sagen, dass das Modell an sich nicht diskriminiert, weil es weder Gut noch Böse kennt. Es sieht nur Daten. Du kannst dem System sagen, dass manche Daten wichtiger als andere sind - im Sinne von wahrscheinlicher - und damit Einseitigkeit reduzieren. Aber wenn das Ziel ist, dass das Modell in der echten Welt gut performt, dann ist es auch wichtig ihm auch Daten aus der der wirklichen Welt zu zeigen. Um das System robuster zu machen, muss man ihm also auch Textstücke präsentieren, die nicht alle “gut” sind. Das macht die Systeme weniger brüchig. Am Ende des Tages ist GPT-3 nur ein Tool und die sind an sich nicht das Problem. Die Probleme werden von Menschen verursacht, die sie nutzen. Autor:innen können das Modell zum Beispiel als kreative Unterstützung hernehmen, um “bösen” Text für den Teil ihres Romans über den Bösewicht zu schreiben. Dagegen wäre es wahrscheinlich nicht die besonders klug, das gleiche Modell für den Kundensupport einer Bank einzusetzen.