Návrh Školení

Úvod

  • Definování „Industriálně silného zpracování přirozeného jazyka“.

Nainstalovat spaCy

Součásti spaCy

  • Tagueř pro členění textu podle gramatických kategorií (part-of-speech tagger)
  • Identifikátor pojmenovaných entit (named entity recognizer)
  • Rozbor závislostí (dependency parser)

Přehled funkcí a syntaxe spaCy

Pochopení modelování v spaCy

  • Statistické modelování a predikce.

Použití příkazového řádku (CLI) v spaCy

  • Základní příkazy

Vytvoření jednoduché aplikace pro predikci chování.

Trenování nového statistického modelu

  • Data (pro trénování)
  • Štítky (tagy, pojmenované entity atd.)

Nahrání modelu

  • Míchání a opakování.

Uložení modelu

Poskytnutí zpětné vazby k modelu

  • Chybový gradient.

Aktualizace modelu

  • Aktualizace identifikátoru entit (entity recognizer)
  • Vytahování tokenů pomocí pravidlového shodovacího algoritmu (rule-based matcher).

Vývoj zobecněné teorie pro očekávané výsledky

Studie případu

  • Rozlišení názvů produktů od názvů společností.

Přesnění trénovacích dat

  • Výběr reprezentativních dat.
  • Nastavení míry vynechávání (dropout rate).

Jiné metody trénování

  • Procházení surových textů.
  • Procházení slovníků s anotacemi.

Použití spaCy k předzpracování textu pro hluboké učení (Deep Learning).

Integrace spaCy do legacy aplikací.

Testování a ladění modelu spaCy

  • Důležitost iterativního procesu.

Nasazení modelu do produkce

Sledování a přizpůsobení modelu

Řešení problémů

Závěr a shrnutí

Požadavky

  • Zkušenosti s programováním v Pythonu.
  • Základní znalost statistiky.
  • Zkušenosti s příkazovou řádkou.

Účastníci

  • Programátoři
  • Data scientisti
 14 hodiny

Počet účastníků


Cena za účastníka

Reference (3)

Nadcházející kurzy

Související kategorie