Zkuste nás kontaktovat

Návrh Školení

Infrastruktura EXO jako kód (IaC)

  • Přehled vzorů nasazení EXO: jedn узловой (single-node), více узловой (multi-node) a klastry s RDMA
  • Automatizace instalace závislostí (Xcode, uv, Node.js, Rust) se správou konfigurace
  • Používání flakes Nix pro reprodukovatelné sestavení EXO a vývojářská prostředí
  • Pisání playbooků Ansible nebo skriptů shellu pro automatizované nasazení klastru bez dozoru

Reprodukovatelné sestavení a integrace CI

  • Vázání závislostí (pinování) a sestavování dashboardu v pipelinech CI
  • Spouštění dýmkových testů (smoke tests) EXO v běžečích GitHub Actions nebo GitLab CI
  • Vytváření zlatých obrazů (golden images) a prací se snímky (snapshots) pro rollback VM na macOS a Linuxu
  • Verzování vlastních karet modelů společně s kódem aplikace

Objevování klastrů a automatizace sítě

  • Konfigurace mDNS a statického DNS pro spolehlivé objevování uzlů libp2p
  • Automatizace vytváření síťových profilů a správy Thunderbolt mostu na macOS
  • Používání vlastních namespace (EXO_LIBP2P_NAMESPACE) k oddělení klastrů dev, staging a prod
  • Pravidla firewallu a segmentace sítě pro vícedoménová prostředí

Sprava úložiště a životního cyklu modelů

  • Navrhování strategií pro EXO_MODELS_DIRS a EXO_MODELS_READ_ONLY_DIRS
  • Připojování NFS nebo SAN úložišť jako čtecí pouze modelových repozitářů pro rychlé nasazení
  • Garbage collection zastaralých mezipamětí a politiky zachování verzovaných vah
  • Automatizace předstahování modelů a zdravotních kontrol před rolling aktualizacemi

Monitorování a upozorňování

  • Odesílání protokolů EXO do centrálního logování (ELK, Loki nebo Splunk)
  • Vytváření dashboardů Grafana z výstupu EXO_TRACING_ENABLED
  • Upozorňování na změny členství v klastru, události OOM (Out Of Memory) a nárůst latence inference
  • Korelace hardwarových telemetrických dat macmon s regresemi výkonu modelů

Aktualizace, rollback a havarijní obnova

  • Ukládání aktualizací binárních souborů EXO do node canary před nasazením do celé flotily
  • Modelový rollback: přepínání mezi kvantizovanými verzemi bez opětovného stahování
  • Zálohování a obnovování stavu klastru, vlastních namespace a mezipamětovaných vah
  • Dokumentování postupů pro havarijní obnovu v scénářích úplné rebuildu klastru

Zesílení bezpečnosti a compliance

  • Použití TLS na vrstvě reverzního proxy serveru (nginx, traefik) pro dashboard a API
  • Implementace omezování rychlosti API (rate limiting) a bílého seznamu IP pro endpointy EXO
  • Izolace klastrů pomocí VLAN a políticas sítě typu zero-trust
  • Audity přístupu a udržování inventáře nasazených modelů a verzí

Požadavky

  • Zkušenosti s praktikami DevOps (CI/CD, IaC, orchestrace kontejnerů)
  • Seznámení se správou systémů a správou balíčků na macOS nebo Linuxu
  • Porozumění konceptům sítě, DNS a úložiště

Cílová skupina

  • Inženýři DevOps
  • Architekti infrastruktury
  • SRE (Site Reliability Engineers) odpovědní za lokální (on-premise) pracovní zátěže AI
 21 Hodiny

Počet účastníků


Cena za účastníka

Reference (2)

Nadcházející kurzy

Související kategorie