Die Feinabstimmung eines großen Sprachmodells (Large Language Model, LLM) ist von entscheidender Bedeutung, um es auf spezifische Geschäftsanforderungen abzustimmen, die Genauigkeit zu verbessern und seine Leistung zu optimieren. Dies wiederum verschafft Unternehmen präzise, umsetzbare Erkenntnisse, die Effizienz und Innovation fördern. Dieser Kurs vermittelt angehenden KI-Ingenieuren wertvolle Fähigkeiten zur Feinabstimmung, die von Arbeitgebern aktiv gesucht werden. Während dieses Kurses werden Sie verschiedene Ansätze zur Feinabstimmung und kausale LLMs mit menschlichem Feedback und direkter Präferenz untersuchen. Sie werden LLMs als Richtlinien für Wahrscheinlichkeitsverteilungen zur Generierung von Antworten und die Konzepte des Instruktions-Tunings mit Hugging Face betrachten. Sie werden lernen, Belohnungen unter Verwendung von menschlichem Feedback und Belohnungsmodellierung mit Hugging Face zu berechnen. Darüber hinaus werden Sie das Verstärkungslernen aus menschlichem Feedback (RLHF), die proximale Policy-Optimierung (PPO) und PPO-Trainer sowie optimale Lösungen für Probleme der direkten Präferenzoptimierung (DPO) kennenlernen.
![IBM](https://d3njjcbhbojbot.cloudfront.net/api/utilities/v1/imageproxy/http://coursera-university-assets.s3.amazonaws.com/bb/f5ced2bdd4437aa79f00eb1bf7fbf0/IBM-Logo-Blk---Square.png?auto=format%2Ccompress&dpr=1&w=28&h=28)
![](https://d3njjcbhbojbot.cloudfront.net/api/utilities/v1/imageproxy/https://coursera_assets.s3.amazonaws.com/images/1a4589dccee10648821b7ea23e5fca9a.png?auto=format%2Ccompress&dpr=1&q=80)
![IBM](https://d3njjcbhbojbot.cloudfront.net/api/utilities/v1/imageproxy/http://coursera-university-assets.s3.amazonaws.com/c0/87a10033a311e892619b85c6fd62bb/IBM-200x48.png?auto=format%2Ccompress&dpr=1&h=45)
Generative AI-Feinabstimmung für LLMs
Dieser Kurs ist Teil mehrerer Programme.
![Joseph Santarcangelo](https://d3njjcbhbojbot.cloudfront.net/api/utilities/v1/imageproxy/https://coursera-instructor-photos.s3.amazonaws.com/19/c6bf4030a611e897095b4bb8907d1a/joseph.jpg?auto=format%2Ccompress&dpr=1&w=75&h=75&fit=crop)
![Ashutosh Sagar](https://d3njjcbhbojbot.cloudfront.net/api/utilities/v1/imageproxy/https://coursera-instructor-photos.s3.amazonaws.com/72/350fb5122c4790b7fefd8c2de72f62/AshutoshSagar.jpg?auto=format%2Ccompress&dpr=1&w=75&h=75&fit=crop)
![Wojciech 'Victor' Fulmyk](https://d3njjcbhbojbot.cloudfront.net/api/utilities/v1/imageproxy/https://coursera-instructor-photos.s3.amazonaws.com/3d/8d157d65ff427ca679f11eb1f56d5d/wfulmyk.jpg?auto=format%2Ccompress&dpr=1&w=75&h=75&fit=crop)
Dozenten: Joseph Santarcangelo
3.198 bereits angemeldet
Bei enthalten
(29 Bewertungen)
Empfohlene Erfahrung
Was Sie lernen werden
Gefragtes KI-Ingenieurwissen zur Feinabstimmung von LLMs, nach denen Arbeitgeber aktiv suchen, in nur 2 Wochen
Befehlsabstimmung und Belohnungsmodellierung mit dem Hugging Face, plus LLMs als Richtlinien und RLHF
Direkte Präferenzoptimierung (DPO) mit Partitionsfunktion und Hugging Face und wie man eine optimale Lösung für ein DPO-Problem erstellt
Verwendung der Proximal Policy Optimization (PPO) mit Hugging Face zur Erstellung einer Scoring-Funktion und zur Tokenisierung von Datensätzen
Wichtige Details
![](https://d3njjcbhbojbot.cloudfront.net/api/utilities/v1/imageproxy/https://coursera_assets.s3.amazonaws.com/images/31ebcba3851b87d1d8609abf15d0ff7e.png?auto=format%2Ccompress&dpr=1&w=24&h=24)
Zu Ihrem LinkedIn-Profil hinzufügen
Oktober 2024
5 Aufgaben
Erfahren Sie, wie Mitarbeiter führender Unternehmen gefragte Kompetenzen erwerben.
![Platzhalter](https://d3njjcbhbojbot.cloudfront.net/api/utilities/v1/imageproxy/https://coursera_assets.s3.amazonaws.com/images/74c8747e8210831049cf88dd4eefe26c.png?auto=format%2Ccompress&dpr=2&blur=200&px=8&max-w=320)
Erweitern Sie Ihre Fachkenntnisse
- Lernen Sie neue Konzepte von Branchenexperten
- Gewinnen Sie ein Grundverständnis bestimmter Themen oder Tools
- Erwerben Sie berufsrelevante Kompetenzen durch praktische Projekte
- Erwerben Sie ein Berufszertifikat zur Vorlage
![Platzhalter](https://d3njjcbhbojbot.cloudfront.net/api/utilities/v1/imageproxy/https://coursera_assets.s3.amazonaws.com/images/a7c5400e51272c78b710ce9b56fd3178.png?auto=format%2Ccompress&dpr=2&blur=200&px=8&max-w=562)
![Platzhalter](https://d3njjcbhbojbot.cloudfront.net/api/utilities/v1/imageproxy/https://coursera_assets.s3.amazonaws.com/images/de1a6556fbe605411e8c1c2ca4ba45f1.png?auto=format%2Ccompress&dpr=2&blur=200&px=8&max-w=259)
Erwerben Sie ein Karrierezertifikat.
Fügen Sie diese Qualifikation zur Ihrem LinkedIn-Profil oder Ihrem Lebenslauf hinzu.
Teilen Sie es in den sozialen Medien und in Ihrer Leistungsbeurteilung.
![Platzhalter](https://d3njjcbhbojbot.cloudfront.net/api/utilities/v1/imageproxy/https://coursera_assets.s3.amazonaws.com/images/de1a6556fbe605411e8c1c2ca4ba45f1.png?auto=format%2Ccompress&dpr=2&blur=200&px=8&max-w=333)
In diesem Kurs gibt es 2 Module
In diesem Modul beginnen Sie mit der Definition der Befehlsabstimmung und ihres Prozesses. Außerdem erhalten Sie Einblicke in das Laden eines Datensatzes, die Erstellung von Textpipelines und das Training von Argumenten. Darüber hinaus befassen Sie sich mit der Belohnungsmodellierung, wobei Sie den Datensatz vorverarbeiten und die Low-Rank-Adaptation (LoRA)-Konfiguration anwenden. Außerdem lernen Sie, wie Sie die Qualität von Antworten quantifizieren, die Modelloptimierung steuern und Belohnungspräferenzen einbeziehen. Sie werden auch den Reward-Trainer beschreiben, eine fortgeschrittene Trainingstechnik zum Trainieren eines Modells, und den Verlust des Reward-Modells mit Hugging Face. Die Übungen in diesem Modul ermöglichen es Ihnen, Instruktionstuning und Belohnungsmodelle zu üben.
Das ist alles enthalten
6 Videos4 Lektüren2 Aufgaben2 App-Elemente1 Plug-in
In diesem Modul werden Sie die Anwendungen von großen Sprachmodellen (LLMs) beschreiben, um Richtlinien und Wahrscheinlichkeiten für die Generierung von Antworten auf der Grundlage des Eingabetextes zu erstellen. Sie erhalten auch Einblicke in die Beziehung zwischen der Richtlinie und dem Sprachmodell als Funktion von Omega, um mögliche Antworten zu generieren. Darüber hinaus wird in diesem Modul demonstriert, wie man Belohnungen mit Hilfe von menschlichem Feedback unter Einbeziehung der Belohnungsfunktion berechnet, Antwortmuster trainiert und die Leistung des Agenten bewertet. Sie werden auch die Scoring-Funktion für die Sentiment-Analyse mit PPO und Hugging Face definieren. Sie werden auch die PPO-Konfigurationsklasse für spezifische Modelle und die Lernrate für das PPO-Training erklären und wie der PPO-Trainer die Abfrageproben verarbeitet, um die Richtlinien des Chatbots zu optimieren und qualitativ hochwertige Antworten zu erhalten. Dieses Modul befasst sich mit Konzepten der direkten Präferenzoptimierung (DPO), um optimale Lösungen für die generierten Anfragen auf der Grundlage menschlicher Präferenzen direkter und effizienter mit Hugging Face bereitzustellen. Die Übungen in diesem Modul bieten praktische Übungen zu menschlichem Feedback und DPO. Methoden wie PPO und Reinforcement Learning sind sehr komplex und könnten als eigenständige Studienfächer betrachtet werden. Wir haben zwar einige Referenzen für Interessierte angegeben, aber es wird nicht erwartet, dass Sie diese für diesen Kurs in der Tiefe verstehen
Das ist alles enthalten
10 Videos5 Lektüren3 Aufgaben2 App-Elemente4 Plug-ins
von
Empfohlen, wenn Sie sich für Maschinelles Lernen interessieren
DeepLearning.AI
Fred Hutchinson Cancer Center
Warum entscheiden sich Menschen für Coursera für ihre Karriere?
![](https://d3njjcbhbojbot.cloudfront.net/api/utilities/v1/imageproxy/https://coursera_assets.s3.amazonaws.com/growth_testimonials/passionate_learner/Felipe_Moitta.png?auto=format%2Ccompress&dpr=1&w=64&h=64&fit=crop)
![](https://d3njjcbhbojbot.cloudfront.net/api/utilities/v1/imageproxy/https://coursera_assets.s3.amazonaws.com/growth_testimonials/passionate_learner/Jennifer_John.png?auto=format%2Ccompress&dpr=1&w=64&h=64&fit=crop)
![](https://d3njjcbhbojbot.cloudfront.net/api/utilities/v1/imageproxy/https://coursera_assets.s3.amazonaws.com/growth_testimonials/passionate_learner/Larry_Tao_Wang_1.png?auto=format%2Ccompress&dpr=1&w=64&h=64&fit=crop)
![](https://d3njjcbhbojbot.cloudfront.net/api/utilities/v1/imageproxy/https://coursera_assets.s3.amazonaws.com/growth_testimonials/passionate_learner/Chaitanya_Anand.png?auto=format%2Ccompress&dpr=1&w=64&h=64&fit=crop)
![Platzhalter](https://d3njjcbhbojbot.cloudfront.net/api/utilities/v1/imageproxy/https://coursera_assets.s3.amazonaws.com/images/7a1c0e2e779c1ff27cae62480adfe003.png?auto=format%2Ccompress&dpr=2&blur=200&px=8&max-w=120)
Neue Karrieremöglichkeiten mit Coursera Plus
Unbegrenzter Zugang zu 10,000+ Weltklasse-Kursen, praktischen Projekten und berufsqualifizierenden Zertifikatsprogrammen - alles in Ihrem Abonnement enthalten
Bringen Sie Ihre Karriere mit einem Online-Abschluss voran.
Erwerben Sie einen Abschluss von erstklassigen Universitäten – 100 % online
Schließen Sie sich mehr als 3.400 Unternehmen in aller Welt an, die sich für Coursera for Business entschieden haben.
Schulen Sie Ihre Mitarbeiter*innen, um sich in der digitalen Wirtschaft zu behaupten.
Häufig gestellte Fragen
Der Kurs dauert etwa 3-5 Stunden, so dass Sie innerhalb von nur zwei Wochen über die Fähigkeiten verfügen, die Sie brauchen, um einen Arbeitgeber zu beeindrucken!
Dieser Kurs ist auf mittlerem Niveau angesiedelt. Um den größtmöglichen Lernerfolg zu erzielen, müssen Sie über Grundkenntnisse in Python, großen Sprachmodellen (LLMs), Verstärkungslernen und Befehlsabstimmung verfügen. Sie sollten auch mit Konzepten des maschinellen Lernens und neuronaler Netze vertraut sein.
Dieser Kurs ist Teil der Spezialisierung Generative AI Engineering mit LLMs. Wenn Sie die Spezialisierung abschließen, haben Sie die Fähigkeiten und das Selbstvertrauen, um Berufsrollen wie KI-Ingenieur, Datenwissenschaftler, Ingenieur für maschinelles Lernen, Deep-Learning-Ingenieur, KI-Ingenieur und Entwickler, die mit LLMs arbeiten wollen, zu übernehmen.