Návrh Školení

Úvod

    Učení prostřednictvím pozitivního posilování

Prvky Reinforcement Learning

Důležité podmínky (akce, stavy, odměny, zásady, hodnota, hodnota Q atd.)

Přehled metod tabulkového řešení

Vytvoření softwarového agenta

Pochopení přístupů založených na hodnotách, zásadách a modelech

Práce s Markovovým rozhodovacím procesem (MDP)

Jak zásady definují způsob chování agenta

Použití metod Monte Carlo

Temporal-Difference Learning

n-krok Bootstrapping

Přibližné metody řešení

On-policy Predikce s aproximací

On-policy Control s aproximací

Off-policy metody s aproximací

Pochopení trasování způsobilosti

Použití metod gradientu zásad

Shrnutí a závěr

Požadavky

  • Zkušenosti se strojovým učením
  • Programming zkušenost

Publikum

  • Datoví vědci
  21 hodiny
 

Počet účastníků


Začátek

Konec


Dates are subject to availability and take place between 09:30 and 16:30.
Open Training Courses require 5+ participants.

Související kurzy

AI and Robotics for Nuclear - Extended

  120 hodiny

AI and Robotics for Nuclear

  80 hodiny

Související kategorie