Návrh Školení

Úvod do Syntézy Řeči a Voice Cloningu

  • Přehled text-to-speech (TTS) a neurální syntézy hlasu
  • Voice cloning vs. generování řeči: použití a hranice
  • Klíčové modely: Tacotron, WaveNet, FastSpeech, VITS

Práce s Komerčními Platformami

  • Používání ElevenLabs a Resemble AI
  • Vytváření, klonování a úprava hlasu
  • Přístup přes API a text-to-speech pracovní postupy

Práce s Open-Source Nástroji

  • Instalace a konfigurace Coqui TTS
  • Trénování vlastních hlasů a správa datových souborů
  • Generování řeči s jemnou kontrolou (tón, rychlost, emoce)

Příprava Dat a Správa Hlasových Databází

  • Získání a čištění hlasových vzorků
  • Segmentace, označování a zarovnávání transkriptů
  • Etické zdroje a souhlas s využitím hlasu

Integrace do Aplikací

  • Vložení TTS do webových stránek a aplikací
  • Vytváření IVR systémů a interaktivních chatbotů
  • Generování syntetického dialogu pro video a hry

Hodnocení Kvality a Realismu

  • MOS (Mean Opinion Score) a testy srozumitelnosti
  • Ovládání vyjádření a prosodie
  • Porovnání latence, fidelity a realismu

Etické, Právní a Odborné Aspekty

  • Rizika deepfake a odpovědné využití
  • Souhlas, autorská práva a odkazy
  • Předpisy a organizační politiky

Shrnutí a Další Kroky

Požadavky

  • Pojetí základů strojového učení
  • Seznámení s formáty zvukových souborů a editačními nástroji
  • Základní dovednosti v programování Pythonem

Cílová Skupina

  • Vývojáři AI a inženýři zaujatí syntézou řeči
  • Tvorci obsahu a technologi médií zkoumající generování hlasu
  • Výzkumné týmy vytvářející personalizované nebo dynamické zvukové systémy
 14 Hodiny

Počet účastníků


Cena za účastníka

Nadcházející kurzy

Související kategorie