Návrh Školení

Vstup do syntézy řeči a klonování hlasů

  • Přehled text-to-speech (TTS) a neuronové syntézy řeči
  • Klonování hlasů vs. generace řeči: užití a hranice
  • Hlavní modely: Tacotron, WaveNet, FastSpeech, VITS

Práce s komerčními platformami

  • Používání ElevenLabs a Resemble AI
  • Vytváření, klonování a úpravy hlasů
  • Přístup ke API a pracovním postupům text-to-speech

Stavba s otevřenými zdroji nástrojů

  • Instalace a konfigurace Coqui TTS
  • Trénování vlastních hlasů a správa datových sad
  • Generování řeči s jemnou kontrolou (tón, rychlost, emoce)

Příprava dat a sada zvukových vzorků Management

  • Shromažďování a čištění zvukových vzorků
  • Segmentace, označování a zarovnávání tranzkriptů
  • Etické zdroje a svolení pro hlas

Integrace aplikací

  • Zasazování TTS do webových stránek a aplikací
  • Vytváření IVR systémů a interaktivních bôt
  • Generování syntetického dialogu pro video a hry

Hodnocení kvality a realismu

  • Testy MOS (Střední hodnota názorů) a inteligibility
  • Kontrola výraznosti a prosodie
  • Porovnání latence, fidelita a realismus

Etické, právní a Go řídicí aspekty

  • Rizika deepfake a zodpovědné používání
  • Svolení, atribuce a následky autorských práv
  • Právní předpisy a organizační politiky

Závěr a další kroky

Požadavky

  • Přehled základů strojového učení
  • Znalost formátů audio souborů a nástrojů pro jejich úpravu
  • Základní programátorské dovednosti Python

Cílová skupina

  • Vývojáři a inženýři AI zainteresovaní syntézou řeči
  • Tvůrci obsahu a technologové médií zkoumající generování hlasu
  • Týmy pro výzkum a vyvoj sestavující personalizovaná nebo dynamická audio systémy
 14 hodiny

Počet účastníků


Price per participant

Upcoming Courses

Související kategorie