Návrh Školení
1. Úvod do hlubokého posilovacího učení
- Co je posilovací učení?
- Rozdíl mezi dozorovaným, bezdohledným a posilovacím učením
- Aplikace DRL v roce 2025 (robotika, zdravotní péče, financie, logistika)
- Pochopení interakční smyčky agent-životní prostředí
2. Základy posilovacího učení
- Markovské rozhodovací procesy (MDP)
- Stav, akce, odměna, politika a funkce hodnoty
- Vztah mezi průzkumem a využitím
- Monte Carlo metody a učení s dohledem v čase (TD)
3. Implementace základních algoritmů RL
- Tabulkové metody: dynamické programování, hodnocení politiky a iterace
- Q-learning a SARSA
- Epsilon-greed strategie průzkumu a jejich oslabování
- Implementace prostředí RL pomocí OpenAI Gymnasium
4. Přechod k hlubokému posilovacímu učení
- Omezení tabulkových metod
- Použití neuronových sítí pro aproximaci funkce
- Architektura a pracovní postup hluboké Q-sítě (DQN)
- Zážitkový replay a cílové sítě
5. Pokročilé algoritmy DRL
- Dvojitý DQN, soubojový DQN a prioritní zážitkový replay
- Metody gradientů politik: REINFORCE algoritmus
- Architektury herec-kritik (A2C, A3C)
- Proximal Policy Optimization (PPO)
- Soft Actor-Critic (SAC)
6. Práce s kontinuálními akčními prostory
- Výzvy v kontinuálním řízení
- Použití DDPG (Deep Deterministic Policy Gradient)
- Twin Delayed DDPG (TD3)
7. Praktické nástroje a frameworky
- Použití Stable-Baselines3 a Ray RLlib
- Záznam a monitorování s TensorBoard
- Nastavení hyperparametrů pro DRL modely
8. Inženýrství odměn a návrh prostředí
- Tvarování odměny a rovnováha trestů
- Koncepty přenosu učení z simulace do reality
- Vytváření vlastních prostředí v Gymnasium
9. Částečně pozorovatelná prostředí a generalizace
- Zpracování neúplných informací o stavech (POMDPs)
- Paměťové přístupy pomocí LSTMs a RNNs
- Vylepšení odolnosti agenta a jeho schopnosti generalizace
10. Teorie her a posilovací učení víceagentních systémů
- Úvod do víceagentních prostředí
- Soutěž vs. spolupráce
- Aplikace v adversárním trénování a optimalizaci strategií
11. Studie případů a praktické aplikace
- Simulace autonomního řízení vozidel
- Dynamické ceny a strategie finančního obchodování
- Robotika a průmyslová automatizace
12. Odstraňování potíží a optimalizace
- Konstatování nestabilního tréninku
- Správa řídkosti odměn a přepodobnění
- Škálování DRL modelů na GPU a distribuovaných systémech
13. Shrnutí a další kroky
- Srav a klíčových algoritmů DRL
- Trendy v průmyslu a směry výzkumu (např., RLHF, hybридní modelы)
- Další zdroje a četba
Požadavky
- Ovládání programování v Pythonu
- Pojetí počtu a lineární algebry
- Základní znalosti pravděpodobnosti a statistiky
- Zkušenost s vytvářením modelů strojového učení pomocí Pythonu a NumPy nebo TensorFlow/PyTorch
Cílová skupina
- Vývojáři zaujatí AI a inteligentními systémy
- Data Scientists zkoumající frameworky pro posilovací učení
- Inženýři strojového učení pracující s autonomními systémy
Reference (3)
Opravdu jsem se líbil konec, kdy jsme si vyzkoušeli CHAT GPT. Místnost nebyla pro toto cvičení nejlepší nastavená - místo jednoho velkého stolu by pomohlo několik menších stolů, abychom se mohli rozdělit do menších skupin a společně přemýšlet.
Nola - Laramie County Community College
Kurz - Artificial Intelligence (AI) Overview
Přeloženo strojem
Práce na základě prvních principů s cíleným zaměřením a následné aplikace případových studií v rámci stejného dne
Maggie Webb - Department of Jobs, Regions, and Precincts
Kurz - Artificial Neural Networks, Machine Learning, Deep Thinking
Přeloženo strojem
Že se používala skutečná společenská data. Trainer měl velmi dobrý přístup tím, že tréninky podporoval účastí a soutěží.
Jimena Esquivel - Zaklad Uslugowy Hakoman Andrzej Cybulski
Kurz - Applied AI from Scratch in Python
Přeloženo strojem