Děkujeme za vaši dotaz! Jeden z našich pracovníků vás brzy kontaktuje.
Děkujeme za rezervaci! Jeden z našich pracovníků vás brzy kontaktuje.
Návrh Školení
Úvod do multimodalitě Gemini 3
- Schopnosti v oblasti textu, obrázků, zvuku a videa
- Výběr modelu a přehled koncových bodů
- Klíčové koncepty multimodálního uvažování
Práce s textem a strukturovanými vstupy
- Strategie předávání příkazů pro generování textu
- Metadat, kontextových oken a vložení
- Textové orchestrování multimodálních úkolů
Porozumění obrázkům a vizuální pracovní postupy
- Analýza a interpretace obrázků s Gemini 3
- Vytváření nástrojů pro vizuální vyhledávání a označování
- Sestavování interakcí z obrázku na text a z textu na obrázek
Zpracování audio vstupů
- Pracovní postupy pro rozpoznávání řeči a transkripci
- Detekce a interpretace zvukových událostí
- Integrace audio s textem a vizuálními vstupy
Video inteligence a analýza scén
- Frame-by-frame a kontinuální video uvažování
- Vytváření nástrojů pro shrnutí a extrakci klíčových momentů
- Automatizace založená na videu a pracovní postupy s obsahem
Návrh architektur multimodálních aplikací
- Kombinace více typů vstupů v jednom kanálu
- Latence, náklady a početní aspekty
- Nejlepší praktiky pro škálovatelné multimodální systémy
Prototypování multimodálních aplikací
- Praktické vytváření multimodálních prototypů
- Rychlá iterace s inženýrstvím příkazů
- Testování a zdokonalování toků uživatelského zážitku
Nasazení multimodálních řešení
- Strategie nasazení a nastavení prostředí
- Monitorování výkonu v reálném čase
- Aspekty bezpečnosti a souladu s předpisy
Shrnutí a další kroky
Požadavky
- Chápání moderních konceptů AI
- Zkušenosti s Pythonem nebo JavaScriptem
- Ovládání REST API
Cílová skupina
- Designéři
- Vytvářitelé obsahu
- Technické týmy produktů
14 hodiny
Reference (1)
Plyn, atmosféra a témata přednášky
Lukasz Kowalczyk - Allegro Sp. z o.o.
Kurz - Google Gemini AI for Data Analysis
Přeloženo strojem