Návrh Školení

Přehled technologií řečového rozpoznávání

  • Historie a vývoj řečového rozpoznávání
  • Akustické modely, jazykové modely a dekódování
  • Moderní architektury: RNNs, transformátory a Whisper

Základy předzpracování zvuku a transkripce

  • Správa formátů zvuku a vzorkovacích frekvencí
  • Čištění, střihání a segmentace zvuku
  • Generování textu ze zvuku: v reálném čase vs. dávkově

Praktická práce s Whisper a jinými API

  • Instalace a použití OpenAI Whisper
  • Volání cloubových API (Google, Azure) pro transkripci
  • Porovnání výkonu, latence a nákladů

Jazyky, přízvuky a adaptace pro konkrétní domény

  • Práce s více jazyky a přízvuky
  • Vlastní slovní zásoby a tolerance k šumu
  • Zpracování právních, lékařských nebo technických jazyků

Formátování výstupu a integrace

  • Přidávání časových označení, interpunkce a mluvčích štítků
  • Export do formátů text, SRT nebo JSON
  • Integrace transkripcí do aplikací nebo databází

Laboratoře implementace případů použití

  • Transkriptace setkání, rozhovorů nebo podcastů
  • Systémy převodu hlasu na text
  • Reálné časy titulky pro video a zvukové streamy

Posouzení, omezení a etika

  • Metriky přesnosti a benchmarking modelů
  • Nestrannost a spravedlnost v modelech řečového rozpoznávání
  • Záležitosti soukromí a dodržování předpisů

Shrnutí a další kroky

Požadavky

  • Porozumění obecným konceptům AI a strojového učení
  • Opačenost s formáty a nástroji pro zvuk nebo média

Cílová skupina

  • Data scientisti a AI inženýři pracující s hlasovými daty
  • Softwaroví vývojáři vytvářející aplikace založené na transkripci
  • Organizace zkoumající řečové rozpoznávání pro automatizaci
 14 Hodiny

Počet účastníků


Cena za účastníka

Nadcházející kurzy

Související kategorie