Návrh Školení
Úvod do vícemodalního umělého rozumění (AI)
- Přehled vícemodalní AI a skutečné aplikace
- Výzvy spojené s integrací textových, obrázkových a zvukových dat
- Současná výzkumná práce a pokroky
Zpracování dat a inženýrství funkcí
- Práce s textovými, obrázkovými a zvukovými daty
- Předzpracovávací techniky pro vícemodalní učení
- Extrahování funkcí a strategie fúze dat
Vytváření vícemodalních modelů s PyTorchem a Hugging Face
- Úvod do PyTorchu pro vícemodalní učení
- Použití Transformers z Hugging Face pro úlohy NLP a vizuálních dat
- Kombinování různých modalit v integrovaném AI modelu
Implementace fúze řeči, vidění a textu
- Integrace OpenAI Whisper pro rozpoznávání řeči
- Použití DeepSeek-Vision pro zpracování obrázků
- Techniky fúze pro vícemodalní učení
Trénink a optimalizace vícemodalních AI modelů
- Strategie tréninku modelů pro vícemodalní AI
- Optimalizační techniky a nástrahy hyperparametrů
- Řešení předpisovosti a zlepšování generalizace modelu
Nasazování vícemodalních AI v reálných aplikacích
- Export modelů pro produkční použití
- Nasazování AI modelů na cloudových platformách
- Sledování výkonu a údržba modelu
Pokročilé témata a budoucí trendy
- Nulu-střelné a málo-střelné učení v vícemodalní AI
- Etnické aspekty a zodpovědný vývoj AI
- Vznikající trendy v prohlubujícím se výzkumu vícemodalní AI
Shrnutí a další kroky
Požadavky
- Silný pochopení konceptů strojového učení a hlubokého učení
- Zkušenosti s AI frameworky jako je PyTorch nebo TensorFlow
- Znalost zpracování textových, obrázkových a zvukových dat
Cílová skupina
- Vývojáři AI
- Inženýri strojového učení
- Vědečtí pracovníci
Reference (1)
Náš instruktor Yashank byl neuvěřitelně vzdělaný. Upravil kurzy tak, aby odpovídaly tomu, co jsme skutečně potřebovali seznat, a s ním jsme měli skvělé zkušenosti se studiem. Jeho znalost oblasti, kterou nám přednášel, byla ohromující; sdílel s námi přehledy z praxe a pomohl nám vyřešit skutečné problémy, s kterými se setkávali naše pracovní týmy.
Ahmed Nazeem - Maldives Pension Administration Office
Kurz - Multimodal AI for Enhanced User Experience
Přeloženo strojem