Děkujeme za vaši dotaz! Jeden z našich pracovníků vás brzy kontaktuje.
Děkujeme za rezervaci! Jeden z našich pracovníků vás brzy kontaktuje.
Návrh Školení
Podrobný rozvrh výcviku
- Úvod do zpracování přirozeného jazyka
- Chápání NLP
- Rámce pro NLP
- Komerční aplikace NLP
- Sběr dat ze webu
- Práce s různými API pro získání textových dat
- Práce a ukládání textových korpusů s úsporou obsahu a příslušných metadat
- Výhody používání jazyka Python a rychlý kurz NLTK
- Praktické pochopení korpusu a datové sady
- Proč potřebujeme korpus?
- Analýza korpusu
- Druhy datových atributů
- Různé formáty souborů pro korpusy
- Příprava datové sady pro aplikace NLP
- Chápání struktury vět
- Složky NLP
- Pochopení přirozeného jazyka
- Morfologická analýza - kmen, slovo, token, slovní druhy
- Syntaktická analýza
- Sémantická analýza
- Zvládání nejednoznačnosti
- Předzpracování textových dat
- Korpus - surový text
- Tokenizace vět
- Stemming pro surový text
- Lemmatizace surového textu
- Odstranění funkcionalních slov
- Korpus - surové věty
- Tokenizace slov
- Lemmatizace slov
- Práce s maticemi Term-Dokument/Dokument-Term
- Tokenizace textu do n-gramů a vět
- Praktické a přizpůsobené předzpracování
- Korpus - surový text
- Analýza textových dat
- Základní vlastnosti NLP
- Parsery a parsování
- Označování slovních druhů (POS tagging) a taggery
- Rozpoznávání pojmenovaných entit
- N-gramy
- Sáček slov (Bag of words)
- Statistické vlastnosti NLP
- Koncepty lineární algebry pro NLP
- Pravděpodobnostní teorie pro NLP
- TF-IDF
- Vectorizace
- Kodéry a dekodéry
- Normalizace
- Pravděpodobnostní modely
- Pokročilá inženýrská práce s funkcemi a NLP
- Základy word2vec
- Složky modelu word2vec
- Logika modelu word2vec
- Rozšíření konceptu word2vec
- Aplikace modelu word2vec
- Případová studie: Aplikace sáčku slov: automatické shrnování textu pomocí zjednodušeného a pravého Luhnova algoritmu
- Základní vlastnosti NLP
- Shlukování dokumentů, klasifikace a modelování témat
- Shlukování dokumentů a těžení vzorů (hierarchické shlukování, k-means, shlukování atd.)
- Srovnávání a klasifikace dokumentů pomocí mír TFIDF, Jacardovy vzdálenosti a kosinové vzdálenosti
- Klasifikace dokumentů pomocí Naivního Bayese a Maximální entropie
- Identifikace důležitých prvků textu
- Redukce dimenzionality: Analýza hlavních komponent, Singulární rozklad (SVD), nezáporná maticová faktorizace
- Modelování témat a retrieval informací pomocí Latentní sémantické analýzy
- Extrakce entit, analýza sentimentu a pokročilé modelování témat
- Pozitivní versus negativní: míra sentimentu
- Teorie odpovědí na položku (Item Response Theory)
- Označování slovních druhů a jeho aplikace: hledání jmen osob, míst a organizací zmiňovaných v textu
- Pokročilé modelování témat: Latentní Dirichletovo rozdělení
- Případové studie
- Těžení nestrukturovaných uživatelských recenzí
- Klasifikace a vizualizace sentimentu dat produktových recenzí
- Těžení záznamů vyhledávání pro identifikaci vzorů využití
- Klasifikace textu
- Modelování témat
Požadavky
Znalost a pochopení principů NLP a ocenění uplatnění umělé inteligence v podnikovém prostředí.
21 Hodiny
Reference (1)
Individuální podpora
Simon the 2nd - Cboost
Kurz - ROS: Programming for Robotics
Přeloženo strojem