SOWA OPAC : Katalog komputerowy książek, czasopism i zbiorów specjalnych

Książka

W koszyku

Uczące się systemy decyzyjne / Paweł Wawrzyński. - Wydanie I. - Warszawa : Oficyna Wydawnicza Politechniki Warszawskiej, 2021. - 248 stron : ilustracje, wykresy ; 24 cm.

Autor

Wawrzyński Paweł (1978- ) Autor

Forma i typ

Książki Publikacje dydaktyczne Publikacje fachowe Publikacje naukowe

Odbiorca

Informatycy Szkoły wyższe

Temat

Programowanie dynamiczne Sieci neuronowe Sterowanie adaptacyjne Uczenie maszynowe

Gatunek

Podręcznik

Dziedzina i ujęcie

Informatyka i technologie informacyjne Matematyka

1.1. Przykłady zagadnień, w których pojawia się potrzeba adaptacji i uczenia się 1.3. Dziedziny składające się na zawartość podręcznika 1.4. Adaptacja i uczenie się jako droga do inteligentnego zachowania się maszyn i programów 1.5. Organizacja podręcznika 1.6. Potrzebna wiedza wstępna 2. Optymalizacja stochastyczna 2.1. Algorytm gradientu prostego 2.2. Procedura Stochastycznego Najszybszego Spadku, SGD 3. Aproksymacja funkcji i podstawowe mechanizmy adaptacji 3.1. Aproksymatory i zagadnienie aproksymacji 3.2. Zagadnienie uczenia na zbiorze nieskończonym, on-line 3.3. Perceptron wielowarstwowy 3.4. Uczenie się przy użyciu aproksymacji stochastycznej 3.5. Zagadnienia praktyczne związane z używaniem sieci neuronowych w systemach uczących się 4. Proces Decyzyjny Markowa i programowanie dynamiczne 4.1. Proces Decyzyjny Markowa 4.2. Funkcja wartości-akcji i indukowanie strategii 4.3. Klasyczny algorytm programowania dynamicznego 4.4. Programowanie dynamiczne w algorytmice 4.5. Algorytm Iteracji Strategii 4.6. Algorytm Iteracji Funkcji Wartości II. Uczenie się ze wzmocnieniem 5.1. Nieznany z góry Proces Decyzyjny Markowa 5.2. Algorytmy Q-Learning i SARSA 5.3. Rozszerzenie algorytmów Q-Learning i SARSA do ciągłych przestrzeni stanów i akcji 6. Optymalizacja stochastycznego wyboru 6.1. Parametryzowane rozkłady prawdopodobieństwa 6.2. Algorytm REINFORCE punktowy 6.3. Stacjonarna strategia decyzyjna 6.4. Algorytm REINFORCE statyczny 6.5. Algorytm REINFORCE epizodyczny 7. Algorytm Aktor-Krytyk 7.1. Idea algorytmu Aktor-Krytyk 7.2. Klasyczny Aktor-Krytyk 7.3. Aktor-Krytyk(A) 8. Aktor-Krytyk z kompatybilną aproksymacją 8.1. Optymalizacja średniej nagrody 8.2. Gradient strategii 8.3. Aktor-Krytyk z kompatybilną aproksymacją 8.4. Naturalny Aktor-Krytyk 8.5. Dyskonto - ograniczenie wariancji estymatora gradientu 9. Wielokrotne przetwarzanie obserwacji 9.1. Algorytm Q-Learning z powtarzaniem doświadczenia 9.2. Próbkowanie istotnościowe 9.3. Algorytm Aktor-Krytyk z powtarzaniem doświadczenia 9.4. Optymalizacja estymatora wskaźnika jakości 10. Algorytmy wzbogacone 10.1. Asynchronous Advantage Actor-Critic 10.2. Prozimal Policy Optimization 10.3. Deep Deterministic Policy Gradient 10.4. Soft Actor-Critic 11. Gęsta dyskretyzacja czasu 11.1. Strategia z autoskorelowanymi akcjami 11.2. Actor-Critic with Experien.ee Replay and Autocorrelated aCtions 12. Uczenie się w warunkach częściowo obserwowalnego stanu 12.1. Rekurencyjne sieci neuronowe 12.2. Deep Recurrent Q-Learning 13. Wieloagentowe uczenie się ze wzmocnieniem 13.1. Model synchroniczny niekooperacyjny z częściowo obserwowanym stanem 13.2. Multi-Agent Deep Deterministic Policy Gradient III. Sterowanie adaptacyjne 14. Obiekty dynamiczne 14.1. Wstęp 14.2. Liniowe obiekty SISO 14.3. Dyskretna aproksymacja obiektów o ciągłej dynamice 15. Stabilność i funkcja Lapunowa 15.1. Ogólna postać typowego schematu adaptacji 15.2. Stabilność 15.3. Funkcja Lapunowa 15.4. Stabilność w kontekście funkcji Lapunowa 16. Sterowanie adaptacyjne z modelem referencyjnym 16.1. Liniowy obiekt SISO pierwszego rzędu 16.2. Uogólnienie 16.3. Obiekty liniowe wyższych rzędów 17. Zaawansowane schematy adaptacji 17.1. Obiekty o nieliniowej dynamice 17.2. Obiekty z nieobserwowalnymi pochodnymi stanu 18. Samostrojące się regulatory 18.1. Dynamika liniowo parametryzowalna 18.2. Liniowe najmniejsze kwadraty 18.3. Najmniejsze kwadraty z wykładniczym zapominaniem 18.4. Adaptacyjny dobór współczynnika zapominania IV. Inne podejścia do adaptacji 19. Aproksymowane programowanie dynamiczne 20. Stochastyczne sterowanie adaptacyjne 21. Sterowanie z iteracyjnym uczeniem się 22. Filtr Kalmana 22.1. Model 22.2. Algorytm 22.3. Wyprowadzenia 22.4. Rozszerzony Filtr Kalmana

Pliki multimedialne:

Status dostępności:

Wypożyczalnia

Są egzemplarze dostępne do wypożyczenia: sygn. 152291 N (1 egz.)

Strefa uwag:

Uwaga dotycząca bibliografii

Bibliografia na stronach 245-248.