Děkujeme za vaši dotaz! Jeden z našich pracovníků vás brzy kontaktuje.
Děkujeme za rezervaci! Jeden z našich pracovníků vás brzy kontaktuje.
Návrh Školení
Zavedení
- Učení prostřednictvím pozitivního posilování
Elements z Reinforcement Learning
Důležité podmínky (akce, stavy, odměny, zásady, hodnota, hodnota Q atd.)
Přehled metod tabulkového řešení
Vytvoření softwarového agenta
Pochopení přístupů založených na hodnotách, zásadách a modelech
Práce s Markovovým rozhodovacím procesem (MDP)
Jak zásady definují způsob chování agenta
Použití metod Monte Carlo
Temporal-Difference Learning
n-krok Bootstrapping
Přibližné metody řešení
On-policy Predikce s aproximací
On-policy Control s aproximací
Off-policy metody s aproximací
Pochopení trasování způsobilosti
Použití metod gradientu zásad
Shrnutí a závěr
Požadavky
- Zkušenosti se strojovým učením
- Programming zkušenost
Publikum
- Datoví vědci
21 hodiny