Stwórz własne AI : jak od podstaw zbudować duży model językowy

159093

Książka

W koszyku

Autor

Raschka Sebastian Autor Meryk Radosław Tłumaczenie

Forma i typ

Książki Publikacje fachowe

Odbiorca

Informatycy i informatyczki

Temat

Duży model językowy (LLM) Uczenie maszynowe

Gatunek

Podręcznik

Dziedzina i ujęcie

Informatyka i technologie informacyjne

1. Czym są duże modele językowe? 1.1. Czym jest model LLM? 1.2. Zastosowania modeli LLM 1.3. Etapy tworzenia modeli LLM i korzystania z nich 1.4. Wprowadzenie do architektury transformerów 1.5. Wykorzystanie dużych zbiorów danych 1.6. Szczegóły architektury modeli GPT 1.7. Tworzenie dużego modelu językowego 2. Praca z danymi tekstowymi 2.1. Czym są osadzenia słów? 2.2. Tokenizacja tekstu 2.3. Konwersja tokenów na identyfikatory 2.4. Dodawanie specjalnych tokenów kontekstowych 2.5. Kodowanie par bajtów 2.6. Próbkowanie danych z oknem przesuwnym 2.7. Tworzenie osadzeń tokenów 2.8. Kodowanie pozycji słów 3. Kodowanie mechanizmów uwagi 3.1. Problem z modelowaniem długich sekwencji 3.2. Przechwytywanie zależności między danymi za pomocą mechanizmów uwagi 3.3. Zwracanie uwagi na różne części danych wejściowych przez mechanizm samouwagi 3.3.1. Prosty mechanizm samouwagi bez trenowalnych wag 3.3.2. Obliczanie wag uwagi dla wszystkich tokenów wejściowych 3.4. Implementacja mechanizmu samouwagi z trenowalnymi wagami 3.4.1. Obliczanie wag uwagi krok po kroku 3.4.2. Implementacja kompaktowej klasy samouwagi w Pythonie 3.5. Ukrywanie przyszłych słów dzięki zastosowaniu uwagi przyczynowej 3.5.1. Wykorzystanie maski uwagi przyczynowej 3.5.2. Maskowanie dodatkowych wag uwagi z użyciem dropoutu 3.5.3. Implementacja zwięzłej klasy przyczynowej uwagi 3.6. Rozszerzenie uwagi jednogłowicowej na wielogłowicową 3.6.1. Utworzenie stosu wielu jednogłowicowych warstw uwagi 3.6.2. Implementacja uwagi wielogłowicowej z podziałem wag 4. Implementacja od podstaw modelu GPT do generowania tekstu 4.1. Kodowanie architektury LLM 4.2. Normalizacja warstwowa aktywacji 4.3. Implementacja sieci ze sprzężeniem w przód z aktywacjami GELU 4.4. Dodawanie połączeń skrótowych 4.5. Łączenie warstw uwagi i warstw liniowych w bloku transformera 4.6. Kodowanie modelu GPT 4.7. Generowanie tekstu 5. Wstępne szkolenie na nieoznakowanych danych 5.1. Ocena generatywnych modeli tekstowych 5.1.1. Używanie modelu GPT do generowania tekstu 5.1.2. Obliczanie strat związanych z generowaniem tekstu 5.1.3. Obliczanie strat w zestawie szkoleniowym i walidacyjnym 5.2. Szkolenie modelu LLM 5.3. Strategie dekodowania w celu zarządzania losowością 5.3.1. Skalowanie temperaturą 5.3.2. Próbkowanie top-k 5.3.3. Modyfikacja funkcji generowania tekstu 5.4. Wczytywanie i zapisywanie wag modeli z użyciem frameworka PyTorch 5.5. Ładowanie wstępnie przeszkolonych wag z modelu OpenAI 6. Dostrajanie modelu LLM do zadań klasyfikacji 6.1. Różne kategorie dostrajania 6.2. Przygotowanie zbioru danych 6.3. Tworzenie mechanizmów ładujących dane 6.4. Inicjalizacja modelu z użyciem wag wstępnie przeszkolonego modelu 6.5. Dodawanie nagłówka klasyfikacji 6.6. Obliczanie straty i dokładności klasyfikacji 6.7. Dostrajanie modelu na danych nadzorowanych 6.8. Wykorzystanie modelu LLM jako klasyfikatora spamu 7. Dostrajanie modelu LLM do zadań wykonywania instrukcji 7.1. Wprowadzenie do dostrajania do wykonywania instrukcji 7.2. Przygotowanie zbioru danych do nadzorowanego dostrajania pod kątem wykonywania instrukcji 7.3. Organizowanie danych w partie szkoleniowe 7.4. Tworzenie mechanizmów ładujących dane dla zbioru danych instrukcji 7.5. Ładowanie wstępnie przeszkolonego modelu LLM 7.6. Dostrajanie modeli LLM do zadań wykonywania instrukcji 7.7. Wyodrębnianie i zapisywanie odpowiedzi 7.8. Ocena dostrojonego modelu LLM

Pliki multimedialne:

Status dostępności:

Wypożyczalnia

Są egzemplarze dostępne do wypożyczenia: sygn. 157158 N (1 egz.)

Strefa uwag:

Tytuł oryginału: Build a large language model (from scratch), 2025

Tytuł oryginału: Build a large language model (from scratch).