Návrh Školení

Vступ do vícemodálního AI a Ollama

  • Přehled vícemodálního učení
  • Klíčové výzvy při integraci zobrazení a jazyka
  • Možnosti a architektura Ollama

Nastavení prostředí Ollama

  • Instalace a konfigurace Ollama
  • Práce s místním nasazením modelů
  • Integrace Ollamy s Pythonem a Jupyterem

Práce s vícemodálními vstupy

  • Integrace textu a obrázku
  • Zahrnutí zvuku a strukturovaných dat
  • Návrh předzpracovatelských kanálů

Aplikace pro porozumění dokumentům

  • Extrahování strukturovaných informací ze souborů PDF a obrázků
  • Kombinace OCR se jazykovými modely
  • Vytváření inteligentních pracovních postupů pro analýzu dokumentů

Visual Question Answering (VQA)

  • Nastavení datových sad a benchmarků VQA
  • Vyškolení a hodnocení vícemodálních modelů
  • Vytváření interaktivních aplikací VQA

Návrh vícemodálních agentů

  • Zásady návrhu agentů s vícemodálním odvozováním
  • Kombinace vnímání, jazyka a akcí
  • Nasazování agentů do skutečných užitkových případů

Pokročilá integrace a optimalizace

  • Práce s vícemodálními modely Ollamy
  • Optimalizace výkonu odvozování
  • Přístupy k škálovatelnosti a nasazení

Souhrn a další kroky

Požadavky

  • Výrazné pochopení konceptů strojového učení
  • Zkušenosti s hlubokým učením na frameworkech jako je PyTorch nebo TensorFlow
  • Znalost zpracování přirozeného jazyka a počítačového vidění

Cílová skupina

  • Inženýři strojového učení
  • Výzkumníci v oblasti umělé inteligence
  • Vývojáři produktů integrujících pracovní postupy vidění a textu
 21 hodiny

Počet účastníků


Price per participant

Upcoming Courses

Související kategorie