Návrh Školení

1. Úvod do hlubokého posilovacího učení

  • Co je posilovací učení?
  • Rozdíl mezi dozorovaným, bezdohledným a posilovacím učením
  • Aplikace DRL v roce 2025 (robotika, zdravotní péče, financie, logistika)
  • Pochopení interakční smyčky agent-životní prostředí

2. Základy posilovacího učení

  • Markovské rozhodovací procesy (MDP)
  • Stav, akce, odměna, politika a funkce hodnoty
  • Vztah mezi průzkumem a využitím
  • Monte Carlo metody a učení s dohledem v čase (TD)

3. Implementace základních algoritmů RL

  • Tabulkové metody: dynamické programování, hodnocení politiky a iterace
  • Q-learning a SARSA
  • Epsilon-greed strategie průzkumu a jejich oslabování
  • Implementace prostředí RL pomocí OpenAI Gymnasium

4. Přechod k hlubokému posilovacímu učení

  • Omezení tabulkových metod
  • Použití neuronových sítí pro aproximaci funkce
  • Architektura a pracovní postup hluboké Q-sítě (DQN)
  • Zážitkový replay a cílové sítě

5. Pokročilé algoritmy DRL

  • Dvojitý DQN, soubojový DQN a prioritní zážitkový replay
  • Metody gradientů politik: REINFORCE algoritmus
  • Architektury herec-kritik (A2C, A3C)
  • Proximal Policy Optimization (PPO)
  • Soft Actor-Critic (SAC)

6. Práce s kontinuálními akčními prostory

  • Výzvy v kontinuálním řízení
  • Použití DDPG (Deep Deterministic Policy Gradient)
  • Twin Delayed DDPG (TD3)

7. Praktické nástroje a frameworky

  • Použití Stable-Baselines3 a Ray RLlib
  • Záznam a monitorování s TensorBoard
  • Nastavení hyperparametrů pro DRL modely

8. Inženýrství odměn a návrh prostředí

  • Tvarování odměny a rovnováha trestů
  • Koncepty přenosu učení z simulace do reality
  • Vytváření vlastních prostředí v Gymnasium

9. Částečně pozorovatelná prostředí a generalizace

  • Zpracování neúplných informací o stavech (POMDPs)
  • Paměťové přístupy pomocí LSTMs a RNNs
  • Vylepšení odolnosti agenta a jeho schopnosti generalizace

10. Teorie her a posilovací učení víceagentních systémů

  • Úvod do víceagentních prostředí
  • Soutěž vs. spolupráce
  • Aplikace v adversárním trénování a optimalizaci strategií

11. Studie případů a praktické aplikace

  • Simulace autonomního řízení vozidel
  • Dynamické ceny a strategie finančního obchodování
  • Robotika a průmyslová automatizace

12. Odstraňování potíží a optimalizace

  • Konstatování nestabilního tréninku
  • Správa řídkosti odměn a přepodobnění
  • Škálování DRL modelů na GPU a distribuovaných systémech

13. Shrnutí a další kroky

  • Srav a klíčových algoritmů DRL
  • Trendy v průmyslu a směry výzkumu (např., RLHF, hybридní modelы)
  • Další zdroje a četba

Požadavky

  • Ovládání programování v Pythonu
  • Pojetí počtu a lineární algebry
  • Základní znalosti pravděpodobnosti a statistiky
  • Zkušenost s vytvářením modelů strojového učení pomocí Pythonu a NumPy nebo TensorFlow/PyTorch

Cílová skupina

  • Vývojáři zaujatí AI a inteligentními systémy
  • Data Scientists zkoumající frameworky pro posilovací učení
  • Inženýři strojového učení pracující s autonomními systémy
 21 hodiny

Počet účastníků


Cena za účastníka

Reference (5)

Nadcházející kurzy

Související kategorie