Návrh Školení

Úvod do multimodalitě Gemini 3

  • Schopnosti v oblasti textu, obrázků, zvuku a videa
  • Výběr modelu a přehled koncových bodů
  • Klíčové koncepty multimodálního uvažování

Práce s textem a strukturovanými vstupy

  • Strategie předávání příkazů pro generování textu
  • Metadat, kontextových oken a vložení
  • Textové orchestrování multimodálních úkolů

Porozumění obrázkům a vizuální pracovní postupy

  • Analýza a interpretace obrázků s Gemini 3
  • Vytváření nástrojů pro vizuální vyhledávání a označování
  • Sestavování interakcí z obrázku na text a z textu na obrázek

Zpracování audio vstupů

  • Pracovní postupy pro rozpoznávání řeči a transkripci
  • Detekce a interpretace zvukových událostí
  • Integrace audio s textem a vizuálními vstupy

Video inteligence a analýza scén

  • Frame-by-frame a kontinuální video uvažování
  • Vytváření nástrojů pro shrnutí a extrakci klíčových momentů
  • Automatizace založená na videu a pracovní postupy s obsahem

Návrh architektur multimodálních aplikací

  • Kombinace více typů vstupů v jednom kanálu
  • Latence, náklady a početní aspekty
  • Nejlepší praktiky pro škálovatelné multimodální systémy

Prototypování multimodálních aplikací

  • Praktické vytváření multimodálních prototypů
  • Rychlá iterace s inženýrstvím příkazů
  • Testování a zdokonalování toků uživatelského zážitku

Nasazení multimodálních řešení

  • Strategie nasazení a nastavení prostředí
  • Monitorování výkonu v reálném čase
  • Aspekty bezpečnosti a souladu s předpisy

Shrnutí a další kroky

Požadavky

  • Chápání moderních konceptů AI
  • Zkušenosti s Pythonem nebo JavaScriptem
  • Ovládání REST API

Cílová skupina

  • Designéři
  • Vytvářitelé obsahu
  • Technické týmy produktů
 14 hodiny

Počet účastníků


Cena za účastníka

Reference (1)

Nadcházející kurzy

Související kategorie