IBM
Generative AI-Feinabstimmung für LLMs
IBM

Generative AI-Feinabstimmung für LLMs

Dieser Kurs ist Teil mehrerer Programme.

Joseph Santarcangelo
Ashutosh Sagar
Wojciech 'Victor' Fulmyk

Dozenten: Joseph Santarcangelo

3.198 bereits angemeldet

Bei Coursera Plus enthalten

Verschaffen Sie sich einen Einblick in ein Thema und lernen Sie die Grundlagen.
4.1

(29 Bewertungen)

Stufe Mittel

Empfohlene Erfahrung

Es dauert 8 Stunden
3 Wochen bei 2 Stunden pro Woche
Flexibler Zeitplan
In Ihrem eigenen Lerntempo lernen
Verschaffen Sie sich einen Einblick in ein Thema und lernen Sie die Grundlagen.
4.1

(29 Bewertungen)

Stufe Mittel

Empfohlene Erfahrung

Es dauert 8 Stunden
3 Wochen bei 2 Stunden pro Woche
Flexibler Zeitplan
In Ihrem eigenen Lerntempo lernen

Was Sie lernen werden

  • Gefragtes KI-Ingenieurwissen zur Feinabstimmung von LLMs, nach denen Arbeitgeber aktiv suchen, in nur 2 Wochen

  • Befehlsabstimmung und Belohnungsmodellierung mit dem Hugging Face, plus LLMs als Richtlinien und RLHF

  • Direkte Präferenzoptimierung (DPO) mit Partitionsfunktion und Hugging Face und wie man eine optimale Lösung für ein DPO-Problem erstellt

  • Verwendung der Proximal Policy Optimization (PPO) mit Hugging Face zur Erstellung einer Scoring-Funktion und zur Tokenisierung von Datensätzen

Wichtige Details

Zertifikat zur Vorlage

Zu Ihrem LinkedIn-Profil hinzufügen

Kürzlich aktualisiert!

Oktober 2024

Bewertungen

5 Aufgaben

Unterrichtet in Englisch

Erfahren Sie, wie Mitarbeiter führender Unternehmen gefragte Kompetenzen erwerben.

Platzhalter

Erweitern Sie Ihre Fachkenntnisse

Dieser Kurs ist als Teil verfügbar
Wenn Sie sich für diesen Kurs anmelden, müssen Sie auch ein bestimmtes Programm auswählen.
  • Lernen Sie neue Konzepte von Branchenexperten
  • Gewinnen Sie ein Grundverständnis bestimmter Themen oder Tools
  • Erwerben Sie berufsrelevante Kompetenzen durch praktische Projekte
  • Erwerben Sie ein Berufszertifikat zur Vorlage
Platzhalter
Platzhalter

Erwerben Sie ein Karrierezertifikat.

Fügen Sie diese Qualifikation zur Ihrem LinkedIn-Profil oder Ihrem Lebenslauf hinzu.

Teilen Sie es in den sozialen Medien und in Ihrer Leistungsbeurteilung.

Platzhalter

In diesem Kurs gibt es 2 Module

In diesem Modul beginnen Sie mit der Definition der Befehlsabstimmung und ihres Prozesses. Außerdem erhalten Sie Einblicke in das Laden eines Datensatzes, die Erstellung von Textpipelines und das Training von Argumenten. Darüber hinaus befassen Sie sich mit der Belohnungsmodellierung, wobei Sie den Datensatz vorverarbeiten und die Low-Rank-Adaptation (LoRA)-Konfiguration anwenden. Außerdem lernen Sie, wie Sie die Qualität von Antworten quantifizieren, die Modelloptimierung steuern und Belohnungspräferenzen einbeziehen. Sie werden auch den Reward-Trainer beschreiben, eine fortgeschrittene Trainingstechnik zum Trainieren eines Modells, und den Verlust des Reward-Modells mit Hugging Face. Die Übungen in diesem Modul ermöglichen es Ihnen, Instruktionstuning und Belohnungsmodelle zu üben.

Das ist alles enthalten

6 Videos4 Lektüren2 Aufgaben2 App-Elemente1 Plug-in

In diesem Modul werden Sie die Anwendungen von großen Sprachmodellen (LLMs) beschreiben, um Richtlinien und Wahrscheinlichkeiten für die Generierung von Antworten auf der Grundlage des Eingabetextes zu erstellen. Sie erhalten auch Einblicke in die Beziehung zwischen der Richtlinie und dem Sprachmodell als Funktion von Omega, um mögliche Antworten zu generieren. Darüber hinaus wird in diesem Modul demonstriert, wie man Belohnungen mit Hilfe von menschlichem Feedback unter Einbeziehung der Belohnungsfunktion berechnet, Antwortmuster trainiert und die Leistung des Agenten bewertet. Sie werden auch die Scoring-Funktion für die Sentiment-Analyse mit PPO und Hugging Face definieren. Sie werden auch die PPO-Konfigurationsklasse für spezifische Modelle und die Lernrate für das PPO-Training erklären und wie der PPO-Trainer die Abfrageproben verarbeitet, um die Richtlinien des Chatbots zu optimieren und qualitativ hochwertige Antworten zu erhalten. Dieses Modul befasst sich mit Konzepten der direkten Präferenzoptimierung (DPO), um optimale Lösungen für die generierten Anfragen auf der Grundlage menschlicher Präferenzen direkter und effizienter mit Hugging Face bereitzustellen. Die Übungen in diesem Modul bieten praktische Übungen zu menschlichem Feedback und DPO. Methoden wie PPO und Reinforcement Learning sind sehr komplex und könnten als eigenständige Studienfächer betrachtet werden. Wir haben zwar einige Referenzen für Interessierte angegeben, aber es wird nicht erwartet, dass Sie diese für diesen Kurs in der Tiefe verstehen

Das ist alles enthalten

10 Videos5 Lektüren3 Aufgaben2 App-Elemente4 Plug-ins

Dozenten

Joseph Santarcangelo
IBM
33 Kurse1.772.883 Lernende

von

IBM

Empfohlen, wenn Sie sich für Maschinelles Lernen interessieren

Warum entscheiden sich Menschen für Coursera für ihre Karriere?

Felipe M.
Lernender seit 2018
„Es ist eine großartige Erfahrung, in meinem eigenen Tempo zu lernen. Ich kann lernen, wenn ich Zeit und Nerven dazu habe.“
Jennifer J.
Lernender seit 2020
„Bei einem spannenden neuen Projekt konnte ich die neuen Kenntnisse und Kompetenzen aus den Kursen direkt bei der Arbeit anwenden.“
Larry W.
Lernender seit 2021
„Wenn mir Kurse zu Themen fehlen, die meine Universität nicht anbietet, ist Coursera mit die beste Alternative.“
Chaitanya A.
„Man lernt nicht nur, um bei der Arbeit besser zu werden. Es geht noch um viel mehr. Bei Coursera kann ich ohne Grenzen lernen.“
Platzhalter

Neue Karrieremöglichkeiten mit Coursera Plus

Unbegrenzter Zugang zu 10,000+ Weltklasse-Kursen, praktischen Projekten und berufsqualifizierenden Zertifikatsprogrammen - alles in Ihrem Abonnement enthalten

Bringen Sie Ihre Karriere mit einem Online-Abschluss voran.

Erwerben Sie einen Abschluss von erstklassigen Universitäten – 100 % online

Schließen Sie sich mehr als 3.400 Unternehmen in aller Welt an, die sich für Coursera for Business entschieden haben.

Schulen Sie Ihre Mitarbeiter*innen, um sich in der digitalen Wirtschaft zu behaupten.

Häufig gestellte Fragen