Návrh Školení

Úvod do Multi-Modalního AI

  • Co je multi-modální AI?
  • Klíčové výzvy a aplikace
  • Přehled vedoucích multi-modálních modelů

Zpracování textu a porozumění přirozenému jazyku

  • Využití LLM pro AI agenty založené na textu
  • Porozumění inženýrství promptů pro multi-modální úlohy
  • Fine-tuning textových modelů pro oblast-specifické aplikace

Rozpoznávání a generování obrázků

  • Zpracování obrázků pomocí AI: klasifikace, popisování a detekce objektů
  • Generování obrázků s využitím difuzních modelů (Stable Diffusion, DALLE)
  • Integrace dat o obrázku se založenými na textu modely

Zpracování řeči a audio

  • Rozpoznávání řeči s Whisper ASR
  • Techniky syntézy textu na řeč (TTS)
  • Zlepšování uživatelské interakce pomocí AI založené na hlasu

Integrace Multi-Modálních Vstupů

  • Vytváření AI potrubí pro zpracování více typů vstupů
  • Fúzní techniky pro kombinaci textu, obrázků a dat řeči
  • Praktické aplikace multi-modálních AI agentů

Nasazování Multi-Modálních AI Agentů

  • Vytváření API řízených multi-modálních AI řešení
  • Optimalizace modelů pro výkon a škálovatelnost
  • Nejlepší postupy pro nasazování multi-modálního AI do produkčního prostředí

Etnické Aspekty a Budoucí Trends

  • Bias a spravedlnost v multi-modálním AI
  • Zájmy o soukromí s multi-modálními daty
  • Budoucí vývoje v oblasti multi-modálního AI

Shrnutí a Další Kroky

Požadavky

  • Pojmové základy strojového učení
  • Zkušenosti s programováním v Pythonu
  • Svojbizarnost s hlubokými učícími rámci (např. TensorFlow, PyTorch)

Cílová skupina

  • Vývojáři AI
  • Výzkumníci
  • Inženýři pro multimédia
 21 hodiny

Počet účastníků


Cena za účastníka

Reference (1)

Nadcházející kurzy

Související kategorie