Zkuste nás kontaktovat

Návrh Školení

Základy produkčního nasazování Tencent Hunyuan

  • Přehled scénářů služeb modelů Tencent Hunyuan
  • Produkční charakteristiky velkých modelů a modelů s mixovými odborníky (MoE)
  • Běžné úzká místa týkající se latence, propustnosti a nákladů
  • Definování cílů úrovně služeb pro pracovní zátěže inferenčních procesů

Architektura nasazování a tok služeb

  • Klíčové komponenty produkčního stacku inferenčních procesů
  • Volba mezi kontejnerizovanými, lokálními a cloudovými modely nasazování
  • Základy načítání modelů, směrování požadavků a alokace GPU
  • Návrh zaměřený na spolehlivost a provozní jednoduchost

Optimalizace latence v praxi

  • Používání optimalizovaných inferenčních motorů, jako je TensorRT, kde je to vhodné
  • Koncepty KV-cache a praktické ladění cache
  • Snížení nákladů na start, zahřívání a odpovědi
  • Měření času do prvního tokenu a rychlosti generování tokenů

Propustnost, hromadné zpracování a efektivita GPU

  • Strategie kontinuitního a požadavkového hromadného zpracování
  • Správa konkurence a chování front
  • Zlepšení využití GPU bez poškození uživatelské zkušenosti
  • Zpracování požadavků s dlouhým kontextem a smíšenými pracovními zátěží

Kvantizace a kontrola nákladů

  • Proč je kvantizace důležitá pro produkční služby
  • Praktické kompromisy mezi možnostmi přesnosti FP16, INT8 a dalšími běžnými možnostmi
  • Vyvažování kvality modelu, latence a nákladů na infrastrukturu
  • Vytvoření jednoduchého kontrolního seznamu pro optimalizaci nákladů

Provoz, monitorování a přezkoušení připravenosti

  • Spouštěče automatického škálování pro inferenční služby
  • Monitorování latence, propustnosti, využití cache a zdraví GPU
  • Základy protokolování, upozorňování a reakce na incidenty
  • Přezkoumání referenčního nasazení a vytvoření plánu zlepšení

Požadavky

  • Základní porozumění nasazování a pracovním tokům inferenčních procesů velkých jazykových modelů
  • Zkušenosti s kontejnery, cloudovou nebo lokální infrastrukturou a službami založenými na API
  • Praktické znalosti Pythonu nebo úloh souvisejících se systémem

Cílová skupina

  • Inženýři strojového učení nasazující LLM do produkce
  • Platformoví inženýři zodpovědní za inferenční služby založené na GPU
  • Řešení architekti navrhující škálovatelné platformy pro AI služby
 14 Hodiny

Počet účastníků


Cena za účastníka

Nadcházející kurzy

Související kategorie