Návrh Školení

Přehled technologií Speech Recognition

  • Historie a vývoj rozpoznávání řeči
  • Akustické modely, jazykové modely a dekódování
  • Moderní architektury: RNNs, transformerů a Whisper

Zpracování zvuku a základy transkripcí

  • Správa formátů zvukových souborů a vzorkovacích čet
  • Vyčištění, řezání a segmentace zvuku
  • Generování textu ze zvuku: v reálném čase vs. porcová transkripce

Praktické cvičení s Whisper a jinými API

  • Instalace a používání OpenAI Whisper
  • Volání cloudových API (Google, Azure) pro transkripci
  • Porovnávání výkonu, latence a nákladů

Jazyky, dialekty a doménová adaptace

  • Pracovní s více jazyky a dialekty
  • Vlastní slovníky a odolnost proti šumu
  • Správa jazyka v lékařských, právnických nebo technických oblastech

Formátování výstupu a integrace

  • Přidávání časových známek, interpunkce a označení mluvčích
  • Export do formátů textu, SRT nebo JSON
  • Integrace transkripcí do aplikací nebo databází

Use Case Implementační laboratoře

  • Transkripce schůzek, rozhovorů nebo podcastů
  • Systémy příkazů hlas na text
  • V reálném čase titulky pro videa/zvukové stroky

Evaluační, omezení a etika

  • Metriky přesnosti a benchmarkování modelů
  • Biáza a spravedlnost v modelech rozpoznávání řeči
  • Zásady ochrany soukromí a souladu s právními předpisy

Shrnutí a další kroky

Požadavky

  • Přehled obecných konceptů umělé inteligence a strojového učení
  • Znalost formátů a nástrojů pro zvukové nebo multimediální soubory

Cílová skupina

  • Datoví vědci a inženýři AI pracující s hlasovými daty
  • Software pro vývoj aplikací založených na transkripcích
  • Organizace, které zkoumají rozpoznávání řeči pro automatizaci
 14 hodiny

Počet účastníků


Price per participant

Upcoming Courses

Související kategorie