Návrh Školení

Úvod do modelů vizuálního a jazykového zpracování (VLM)

  • Přehled VLM a jejich role v multimodální AI
  • Populární architektury: CLIP, Flamingo, BLIP atd.
  • Aplikace: vyhledávání, popisy obrázků, autonomní systémy, analýza obsahu

Příprava prostředí pro fine-tuning

  • Nastavení OpenCLIP a dalších knihoven VLM
  • Formáty datových sad s páry obrázek-tekst
  • Předzpracování datových potoků pro vizuální a jazykové vstupy

Fine-tuning modelů CLIP a podobných

  • Kontrastní ztrátová funkce a společné prostorevé embeddingy
  • Praktická část: fine-tuning CLIP na vlastních datových sadách
  • Zpracování doménně specifických a vícejazyčných dat

Pokročilé techniky fine-tuningu

  • Použití LoRA a adapter-based metod pro efektivitu
  • Tuning vstupních příkazů a vizuální injekce příkazů
  • Porovnání zero-shot a fine-tuned hodnocení

Hodnocení a benchmarking

  • Metriky pro VLM: přesnost vytěžení, BLEU, CIDEr, recall
  • Diagnosticské nástroje pro vizuální-tekstovou aliniaci
  • Vizualizace prostorových embeddingů a špatně klasifikovaných případů

Nasazení a použití v reálných aplikacích

  • Export modelů pro inferenci (TorchScript, ONNX)
  • Integrace VLM do datových toků nebo API
  • Zvažování zdrojových potřeb a škálování modelu

Případové studie a aplikované scénáře

  • Analýza médií a moderace obsahu
  • Vyhledávání a vytěžení v e-commerce a digitálních knihovnách
  • Vícemodální interakce v robotice a autonomních systémech

Závěr a další kroky

Požadavky

  • Pochopení hlubokého učení pro vizuální a lingvistickou zpracování (NLP)
  • Zkušenosti s PyTorchem a modely na bázi transformerů
  • Obrněnost s architekturami multimodálních modelů

Účastníci

  • Inženýři počítačového zpracování obrazu
  • Vývojáři AI
 14 hodiny

Počet účastníků


Cena za účastníka

Nadcházející kurzy

Související kategorie