Návrh Školení
1. Úvod do hlubokého posilovacího učení
- Co je posilovací učení?
- Rozdíl mezi dozorovaným, bezdohledným a posilovacím učením
- Aplikace DRL v roce 2025 (robotika, zdravotní péče, financie, logistika)
- Pochopení interakční smyčky agent-životní prostředí
2. Základy posilovacího učení
- Markovské rozhodovací procesy (MDP)
- Stav, akce, odměna, politika a funkce hodnoty
- Vztah mezi průzkumem a využitím
- Monte Carlo metody a učení s dohledem v čase (TD)
3. Implementace základních algoritmů RL
- Tabulkové metody: dynamické programování, hodnocení politiky a iterace
- Q-learning a SARSA
- Epsilon-greed strategie průzkumu a jejich oslabování
- Implementace prostředí RL pomocí OpenAI Gymnasium
4. Přechod k hlubokému posilovacímu učení
- Omezení tabulkových metod
- Použití neuronových sítí pro aproximaci funkce
- Architektura a pracovní postup hluboké Q-sítě (DQN)
- Zážitkový replay a cílové sítě
5. Pokročilé algoritmy DRL
- Dvojitý DQN, soubojový DQN a prioritní zážitkový replay
- Metody gradientů politik: REINFORCE algoritmus
- Architektury herec-kritik (A2C, A3C)
- Proximal Policy Optimization (PPO)
- Soft Actor-Critic (SAC)
6. Práce s kontinuálními akčními prostory
- Výzvy v kontinuálním řízení
- Použití DDPG (Deep Deterministic Policy Gradient)
- Twin Delayed DDPG (TD3)
7. Praktické nástroje a frameworky
- Použití Stable-Baselines3 a Ray RLlib
- Záznam a monitorování s TensorBoard
- Nastavení hyperparametrů pro DRL modely
8. Inženýrství odměn a návrh prostředí
- Tvarování odměny a rovnováha trestů
- Koncepty přenosu učení z simulace do reality
- Vytváření vlastních prostředí v Gymnasium
9. Částečně pozorovatelná prostředí a generalizace
- Zpracování neúplných informací o stavech (POMDPs)
- Paměťové přístupy pomocí LSTMs a RNNs
- Vylepšení odolnosti agenta a jeho schopnosti generalizace
10. Teorie her a posilovací učení víceagentních systémů
- Úvod do víceagentních prostředí
- Soutěž vs. spolupráce
- Aplikace v adversárním trénování a optimalizaci strategií
11. Studie případů a praktické aplikace
- Simulace autonomního řízení vozidel
- Dynamické ceny a strategie finančního obchodování
- Robotika a průmyslová automatizace
12. Odstraňování potíží a optimalizace
- Konstatování nestabilního tréninku
- Správa řídkosti odměn a přepodobnění
- Škálování DRL modelů na GPU a distribuovaných systémech
13. Shrnutí a další kroky
- Srav a klíčových algoritmů DRL
- Trendy v průmyslu a směry výzkumu (např., RLHF, hybридní modelы)
- Další zdroje a četba
Požadavky
- Ovládání programování v Pythonu
- Pojetí počtu a lineární algebry
- Základní znalosti pravděpodobnosti a statistiky
- Zkušenost s vytvářením modelů strojového učení pomocí Pythonu a NumPy nebo TensorFlow/PyTorch
Cílová skupina
- Vývojáři zaujatí AI a inteligentními systémy
- Data Scientists zkoumající frameworky pro posilovací učení
- Inženýři strojového učení pracující s autonomními systémy
Reference (5)
Hunter je báječný, velmi poutavý, nesmírně informovaný a sympatický. Velmi dobře.
Rick Johnson - Laramie County Community College
Kurz - Artificial Intelligence (AI) Overview
Přeloženo strojem
Very flexible.
Frank Ueltzhoffer
Kurz - Artificial Neural Networks, Machine Learning and Deep Thinking
I liked the new insights in deep machine learning.
Josip Arneric
Kurz - Neural Network in R
Ann created a great environment to ask questions and learn. We had a lot of fun and also learned a lot at the same time.
Gudrun Bickelq
Kurz - Introduction to the use of neural networks
It was very interactive and more relaxed and informal than expected. We covered lots of topics in the time and the trainer was always receptive to talking more in detail or more generally about the topics and how they were related. I feel the training has given me the tools to continue learning as opposed to it being a one off session where learning stops once you've finished which is very important given the scale and complexity of the topic.