Děkujeme za vaši dotaz! Jeden z našich pracovníků vás brzy kontaktuje.
Děkujeme za rezervaci! Jeden z našich pracovníků vás brzy kontaktuje.
Návrh Školení
Infrastruktura EXO jako kód (IaC)
- Přehled vzorů nasazení EXO: jedn узловой (single-node), více узловой (multi-node) a klastry s RDMA
- Automatizace instalace závislostí (Xcode, uv, Node.js, Rust) se správou konfigurace
- Používání flakes Nix pro reprodukovatelné sestavení EXO a vývojářská prostředí
- Pisání playbooků Ansible nebo skriptů shellu pro automatizované nasazení klastru bez dozoru
Reprodukovatelné sestavení a integrace CI
- Vázání závislostí (pinování) a sestavování dashboardu v pipelinech CI
- Spouštění dýmkových testů (smoke tests) EXO v běžečích GitHub Actions nebo GitLab CI
- Vytváření zlatých obrazů (golden images) a prací se snímky (snapshots) pro rollback VM na macOS a Linuxu
- Verzování vlastních karet modelů společně s kódem aplikace
Objevování klastrů a automatizace sítě
- Konfigurace mDNS a statického DNS pro spolehlivé objevování uzlů libp2p
- Automatizace vytváření síťových profilů a správy Thunderbolt mostu na macOS
- Používání vlastních namespace (EXO_LIBP2P_NAMESPACE) k oddělení klastrů dev, staging a prod
- Pravidla firewallu a segmentace sítě pro vícedoménová prostředí
Sprava úložiště a životního cyklu modelů
- Navrhování strategií pro EXO_MODELS_DIRS a EXO_MODELS_READ_ONLY_DIRS
- Připojování NFS nebo SAN úložišť jako čtecí pouze modelových repozitářů pro rychlé nasazení
- Garbage collection zastaralých mezipamětí a politiky zachování verzovaných vah
- Automatizace předstahování modelů a zdravotních kontrol před rolling aktualizacemi
Monitorování a upozorňování
- Odesílání protokolů EXO do centrálního logování (ELK, Loki nebo Splunk)
- Vytváření dashboardů Grafana z výstupu EXO_TRACING_ENABLED
- Upozorňování na změny členství v klastru, události OOM (Out Of Memory) a nárůst latence inference
- Korelace hardwarových telemetrických dat macmon s regresemi výkonu modelů
Aktualizace, rollback a havarijní obnova
- Ukládání aktualizací binárních souborů EXO do node canary před nasazením do celé flotily
- Modelový rollback: přepínání mezi kvantizovanými verzemi bez opětovného stahování
- Zálohování a obnovování stavu klastru, vlastních namespace a mezipamětovaných vah
- Dokumentování postupů pro havarijní obnovu v scénářích úplné rebuildu klastru
Zesílení bezpečnosti a compliance
- Použití TLS na vrstvě reverzního proxy serveru (nginx, traefik) pro dashboard a API
- Implementace omezování rychlosti API (rate limiting) a bílého seznamu IP pro endpointy EXO
- Izolace klastrů pomocí VLAN a políticas sítě typu zero-trust
- Audity přístupu a udržování inventáře nasazených modelů a verzí
Požadavky
- Zkušenosti s praktikami DevOps (CI/CD, IaC, orchestrace kontejnerů)
- Seznámení se správou systémů a správou balíčků na macOS nebo Linuxu
- Porozumění konceptům sítě, DNS a úložiště
Cílová skupina
- Inženýři DevOps
- Architekti infrastruktury
- SRE (Site Reliability Engineers) odpovědní za lokální (on-premise) pracovní zátěže AI
21 Hodiny
Reference (2)
Craig byl extrémně zapojen do školení, vždy se ujistil, že jsme soustředění, přizpůsobil příklady našim každodenním aktivitám a pokaždé poskytl odpověď, když jsme se zeptali, i když informace nebyly zahrnuty do prezentace.
Ecaterina Ioana Nicoale - BOOKING HOLDINGS ROMANIA SRL
Kurz - DevOps Foundation®
Přeloženo strojem
Vysoký stupeň závazku a znalostí trenéra
Jacek - Softsystem
Kurz - DevOps Engineering Foundation (DOEF)®
Přeloženo strojem