Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
Návrh Školení
Úvod do škálování Ollama
- Architektura Ollamy a záležitosti související s jejím škálováním
- Běžné obtíže v nasazeních pro více uživatelů
- Nejlepší postupy pro připravenost infrastruktury
Alokace prostředků a optimalizace GPU
- Efektivní strategie využívání CPU/GPU
- Aspekty paměti a šířky pásma
- Omezení prostředků na úrovni kontejneru
Nasazení s použitím kontejnerů a Kubernetes
- Encapsovaný Ollama pomocí Dockeru
- Spuštění Ollamy ve clusterech Kubernetes
- Rozdělování zátěže a odhalování služeb
Automatické škálování a seskupování
- Návrh zásad pro automatické škálování Ollamy
- Techniky seskupených odvozů pro optimalizaci propustnosti
- Zahrnutí latence a propustnosti jako obchodního výměnného poměru
Optimalizace latence
- Analýza výkonu odvozů
- Strategie mezipaměti a přípravy modelu
- Zmírňování nákladů na I/O a komunikaci
Sledování a viditelnost
- Integrace Prometheus pro metriky
- Vytváření předloh pomocí Grafany
- Pozorování událostí a reakce na incidenty v infrastruktuře Ollamy
Správa nákladů a strategie škálování
- Alokace GPU s ohledem na náklady
- Požadavky pro nasazení ve cloudu vs. místním prostředí
- Strategie pro udržitelné škálování
Závěr a další kroky
Požadavky
- Zkušenosti s administrací systému Linux
- Pochopení kontainerizace a orchestrace
- Znalost nasazování modelů strojového učení
Cílová skupina
- Inženýři DevOps
- Týmy infrastruktury ML
- Inženýři zajištění spolehlivosti webu
21 hodiny