Děkujeme za vaši dotaz! Jeden z našich pracovníků vás brzy kontaktuje.
Děkujeme za rezervaci! Jeden z našich pracovníků vás brzy kontaktuje.
Návrh Školení
Úvod do škálování Ollama
- Architektura Ollamy a záležitosti související s jejím škálováním
- Běžné obtíže v nasazeních pro více uživatelů
- Nejlepší postupy pro připravenost infrastruktury
Alokace prostředků a optimalizace GPU
- Efektivní strategie využívání CPU/GPU
- Aspekty paměti a šířky pásma
- Omezení prostředků na úrovni kontejneru
Nasazení s použitím kontejnerů a Kubernetes
- Encapsovaný Ollama pomocí Dockeru
- Spuštění Ollamy ve clusterech Kubernetes
- Rozdělování zátěže a odhalování služeb
Automatické škálování a seskupování
- Návrh zásad pro automatické škálování Ollamy
- Techniky seskupených odvozů pro optimalizaci propustnosti
- Zahrnutí latence a propustnosti jako obchodního výměnného poměru
Optimalizace latence
- Analýza výkonu odvozů
- Strategie mezipaměti a přípravy modelu
- Zmírňování nákladů na I/O a komunikaci
Sledování a viditelnost
- Integrace Prometheus pro metriky
- Vytváření předloh pomocí Grafany
- Pozorování událostí a reakce na incidenty v infrastruktuře Ollamy
Správa nákladů a strategie škálování
- Alokace GPU s ohledem na náklady
- Požadavky pro nasazení ve cloudu vs. místním prostředí
- Strategie pro udržitelné škálování
Závěr a další kroky
Požadavky
- Zkušenosti s administrací systému Linux
- Pochopení kontainerizace a orchestrace
- Znalost nasazování modelů strojového učení
Cílová skupina
- Inženýři DevOps
- Týmy infrastruktury ML
- Inženýři zajištění spolehlivosti webu
21 hodiny