Wie wird Chat GPT trainiert?

Wie wird der Chat-GPT trainiert 768x435-718x.jpg

Wenn Sie mit ChatGPT vertraut sind, haben Sie vielleicht gehört, dass es auf einem umfangreichen Datensatz trainiert wird. Aber was bedeutet das genau? In diesem Artikel beleuchten wir die Feinheiten der ChatGPT-Trainingsmethode.

ChatGPT ist ein vortrainiertes Sprachmodell, das durch eine Kombination von überwachtem und verstärktem Lernen angepasst wurde. Der Schulungsprozess von ChatGPT umfasste das Eingeben einer großen Menge an Textdaten in das Modell und das Anpassen seiner Parameter, damit es Text generieren kann, der dem Text im Schulungskorpus ähnelt.

Bei diesem Prozess wurde der Ansatz des unüberwachten Lernens verwendet, was bedeutet, dass dem Modell kein explizites Feedback gegeben wurde, ob sein generierter Text korrekt oder inkorrekt war. Stattdessen passt das Modell seine Parameter anhand der Wahrscheinlichkeit an, dass der generierte Text ähnlich dem Text im Trainingskorpus ist.

GPT-3, das Elternmodell von ChatGPT-3, ist eines der größten Sprachmodelle, das jemals erstellt wurde, mit 175 Milliarden Parametern und einem Kontext von 2048 Token. Es ist auf Hunderte von Milliarden Wörtern aus Common Crawl, WebText2, Books1/2, Wikipedia in Englisch sowie Beispielen von Code in CSS, JSX, Python und anderen Programmiersprachen trainiert.

Die für GPT-3 verwendete Trainingsmethode ist "generatives Pre-Training", was bedeutet, dass sie darauf trainiert wird, das nächste Token oder Wort im Eingabesatz vorherzusagen.

Beste Chat GPT Alternative

Überwachtes Lernen

Das ChatGPT-Modell wurde durch einen Prozess des supervisierten Lernens durch menschliche Trainer feinabgestimmt. Diese Trainer führten Gespräche, indem sie sowohl die Rolle des Benutzers als auch des KI-Assistenten übernahmen.

Sie erhielten Vorschläge vom Modell, um sie bei der Formulierung ihrer Antworten zu unterstützen, die dann mit dem InstructGPT-Datensatz gemischt wurden, der in ein Dialogformat konvertiert worden war.

Verstärkungslernen

Das Modell wurde durch verstärkendes Lernen und die Verwendung von Proximal Policy Optimization (PPO) verbessert. Die menschlichen Trainer bewerteten die vom Modell in einer vorherigen Konversation generierten Antworten und verwendeten diese Bewertungen zur Entwicklung von Belohnungsmodellen. Das Modell wurde anschließend basierend auf diesen Belohnungsmodellen feinabgestimmt.

Der Feinabstimmungsprozess wurde mehrmals durchgeführt, um eine bessere Leistung zu erzielen. PPO-Algorithmen sind im Vergleich zu anderen Algorithmen kosteneffektiv und haben eine schnellere Leistung, was sie ideal für diesen Prozess macht.

OpenAI sammelt weiterhin Informationen von Benutzern, die mit ChatGPT interagieren, die dann genutzt werden können, um das Modell weiter zu verbessern und zu verfeinern.

Die Benutzer haben die Möglichkeit, auf ChatGPT-Antworten durch Upvoting oder Downvoting abzustimmen und sie haben auch die Möglichkeit, zusätzliches Feedback zu geben. Diese Daten werden verwendet, um die Leistung des Modells weiter zu verbessern und es besser darin zu machen, menschenähnlichen Text zu generieren.

Daten, die zur Schulung des Modells verwendet wurden

ChatGPT-3 ist ein Sprachmodell, das aus der GPT-3.5-Serie feinabgestimmt wurde und auf einer Azure AI-Supercomputing-Infrastruktur trainiert wurde. Es wurde auf einer großen Menge an Text, der aus Büchern, Chat-Foren, Artikeln, Websites, wissenschaftlichen Arbeiten, Code und anderen Quellen entnommen wurde, trainiert.

Das Korpus an Textdaten, das zur Schulung von ChatGPT-3 verwendet wurde, war über 45 Terabyte groß. Diese extrem große Größe trägt dazu bei, dass das Modell Texte generieren kann, die ähnlich sind wie die, die ein Journalist oder Autor produzieren könnte.

Ähnliche Artikel

Mehr anzeigen >>