Zkuste nás kontaktovat

Návrh Školení

Úvod do EXO a místního AI clusteringu

  • Přehled frameworku EXO a ekosystému exo-explore
  • Porovnání centralizované cloudové inferenze s distribuovanou lokální inferencí
  • Architektura: zjišťování zařízení libp2p, backend MLX, dashboard a vrstvy API
  • Hardware požadavky: Apple Silicon (M3 Ultra, M4 Pro/Max), Thunderbolt 5, sdílené úložiště

Nasazení EXO na macOS

  • Nastavení Xcode, Metal ToolChain a požadavků macOS
  • Instalace uv, Node.js, Rust nightly
  • Instalace upravené verze macmon pro monitorování Apple Silicon
  • Stažení repozitáře a sestavení dashboardu s npm
  • Spuštění EXO ze zdroje a ověření dashboardu na localhost:52415

Nasazení EXO na Linux

  • Instalace závislostí přes apt nebo Homebrew na Linuxu
  • Konfigurace uv, Node.js 18+ a Rust nightly
  • Sestavení dashboardu a spuštění EXO v režimu pouze CPU
  • Struktura adresářů: cesty XDG Base Directory pro konfiguraci, data, cache a logy

Automatické zjišťování zařízení a vytváření klasteru

  • Porozumění auto-zjišťování založenému na libp2p v lokálních sítích
  • Konfigurace vlastních jmenných prostorů s EXO_LIBP2P_NAMESPACE pro izolaci klasteru
  • Ověření členství uzlů v pohledu dashboardu klasteru
  • Řešení selhání při zjišťování a problémů se segmentací sítě

Povolení RDMA přes Thunderbolt 5

  • Architektura RDMA a tvrzení o snížení latency o 99 procent
  • Povolení RDMA v režimu recovery macOS pomocí rdma_ctl
  • Požadavky na kabely a omezení topologie portů na Mac Studio
  • Soulad verzí macOS na všech uzlech klasteru
  • Řešení problémů s RDMA zjišťováním a konfigurací DHCP

Nasazení špičkových modelů

  • Použití dashboardu k načtení a rozdělení modelů DeepSeek v3.1, Qwen3-235B a rodiny Llama
  • Pohled na umístění instancí pomocí koncového bodu API /instance/previews
  • Vytváření modelových instancí s rozdělením pipeline nebo tensor-parallel
  • Konfigurace vlastních modelových karet z hubu HuggingFace

Sledování a řešení problémů

  • Čtení logů EXO a porozumění distribuovanému sledování
  • Interpretace zdraví klasteru v pohledu dashboardu klasteru
  • Diagnostika selhání pracovního uzlu a chování při opětovném připojení
  • Použití EXO_TRACING_ENABLED pro analýzu výkonnostních úzkých míst

Údržba a aktualizace klasteru

  • Aktualizace binárek EXO a postupy opětovného sestavení dashboardu
  • Migrace modelových cache a správa předem stažených modelů přes NFS
  • Šetrné odpojení uzlů a přeúčtování zátěže

Požadavky

  • Rozumění základům sítí (IP, subnetting, firewally)
  • Zkušenosti s ovládáním příkazové řádky macOS nebo Linuxu
  • Seznámení se správou balíčků v Pythonu (pip/uv) a nástroji Node.js

Cílová skupina

  • Systémoví správci
  • DevOps inženýři
  • Architekti AI infrastruktury odpovědní za nasazení LLM on-premise
 21 Hodiny

Počet účastníků


Cena za účastníka

Nadcházející kurzy

Související kategorie