Návrh Školení

Úvod do škálování Ollama

  • Architektura Ollamy a záležitosti související s jejím škálováním
  • Běžné obtíže v nasazeních pro více uživatelů
  • Nejlepší postupy pro připravenost infrastruktury

Alokace prostředků a optimalizace GPU

  • Efektivní strategie využívání CPU/GPU
  • Aspekty paměti a šířky pásma
  • Omezení prostředků na úrovni kontejneru

Nasazení s použitím kontejnerů a Kubernetes

  • Encapsovaný Ollama pomocí Dockeru
  • Spuštění Ollamy ve clusterech Kubernetes
  • Rozdělování zátěže a odhalování služeb

Automatické škálování a seskupování

  • Návrh zásad pro automatické škálování Ollamy
  • Techniky seskupených odvozů pro optimalizaci propustnosti
  • Zahrnutí latence a propustnosti jako obchodního výměnného poměru

Optimalizace latence

  • Analýza výkonu odvozů
  • Strategie mezipaměti a přípravy modelu
  • Zmírňování nákladů na I/O a komunikaci

Sledování a viditelnost

  • Integrace Prometheus pro metriky
  • Vytváření předloh pomocí Grafany
  • Pozorování událostí a reakce na incidenty v infrastruktuře Ollamy

Správa nákladů a strategie škálování

  • Alokace GPU s ohledem na náklady
  • Požadavky pro nasazení ve cloudu vs. místním prostředí
  • Strategie pro udržitelné škálování

Závěr a další kroky

Požadavky

  • Zkušenosti s administrací systému Linux
  • Pochopení kontainerizace a orchestrace
  • Znalost nasazování modelů strojového učení

Cílová skupina

  • Inženýři DevOps
  • Týmy infrastruktury ML
  • Inženýři zajištění spolehlivosti webu
 21 hodiny

Počet účastníků


Price per participant

Upcoming Courses

Související kategorie