Návrh Školení
Úvod
- Definování „Industriálně silného zpracování přirozeného jazyka“.
Nainstalovat spaCy
Součásti spaCy
- Tagueř pro členění textu podle gramatických kategorií (part-of-speech tagger)
- Identifikátor pojmenovaných entit (named entity recognizer)
- Rozbor závislostí (dependency parser)
Přehled funkcí a syntaxe spaCy
Pochopení modelování v spaCy
- Statistické modelování a predikce.
Použití příkazového řádku (CLI) v spaCy
- Základní příkazy
Vytvoření jednoduché aplikace pro predikci chování.
Trenování nového statistického modelu
- Data (pro trénování)
- Štítky (tagy, pojmenované entity atd.)
Nahrání modelu
- Míchání a opakování.
Uložení modelu
Poskytnutí zpětné vazby k modelu
- Chybový gradient.
Aktualizace modelu
- Aktualizace identifikátoru entit (entity recognizer)
- Vytahování tokenů pomocí pravidlového shodovacího algoritmu (rule-based matcher).
Vývoj zobecněné teorie pro očekávané výsledky
Studie případu
- Rozlišení názvů produktů od názvů společností.
Přesnění trénovacích dat
- Výběr reprezentativních dat.
- Nastavení míry vynechávání (dropout rate).
Jiné metody trénování
- Procházení surových textů.
- Procházení slovníků s anotacemi.
Použití spaCy k předzpracování textu pro hluboké učení (Deep Learning).
Integrace spaCy do legacy aplikací.
Testování a ladění modelu spaCy
- Důležitost iterativního procesu.
Nasazení modelu do produkce
Sledování a přizpůsobení modelu
Řešení problémů
Závěr a shrnutí
Požadavky
- Zkušenosti s programováním v Pythonu.
- Základní znalost statistiky.
- Zkušenosti s příkazovou řádkou.
Účastníci
- Programátoři
- Data scientisti
Reference (3)
Skutečnost, že máme více praktických cvičení s více podobnými daty, jaké používáme v našich projektech (satelitní snímky v rastrovém formátu)
Matthieu - CS Group
Kurz - Scaling Data Analysis with Python and Dask
Přeloženo strojem
Very good preparation and expertise of a trainer, perfect communication in English. The course was practical (exercises + sharing examples of use cases)
Monika - Procter & Gamble Polska Sp. z o.o.
Kurz - Developing APIs with Python and FastAPI
Trainer develops training based on participant's pace