Návrh Školení

Podrobný tréninkový plán

    Úvod do NLP Pochopení rámců NLP NLP Komerční aplikace NLP Stahování dat z webu Práce s různými rozhraními API pro získávání textových dat Práce a ukládání textových korpusů ukládání obsahu a relevantních metadat Výhody používání Pythonu a rychlokurzu NLTK Praktické porozumění korpusu a datové sadě Proč potřebujeme korpus? Korpusová analýza Typy datových atributů Různé formáty souborů pro korpusy Příprava datové sady pro NLP aplikace Pochopení struktury vět Složky NLP Pochopení přirozeného jazyka Morfologická analýza - kmen, slovo, token, řečové tagy Syntaktická analýza Sémantická analýza Zpracování nejednoznačnosti Předzpracování textových dat Korpus - nezpracovaný text Tokenizace vět Stemming pro nezpracovaný text Lemmizace surového textu Odstraňování stop slov Korpus-raw věty Word tokenizace Word lemmatizace Práce s maticemi Term-Document/Document-Term matice Tokenizace textu na n-gramy a věty Praktické a přizpůsobené předzpracování Analýza textových dat Základní funkce analyzátorů NLP a analýzy POS tagování a taggery Rozpoznávání entit N-gramů Sáček slov Statistické vlastnosti NLP Koncepty lineární algebry pro NLP Pravděpodobnostní teorie pro NLP TF-IDF vektorizace Kodéry a dekodéry Normalizace Pravděpodobnostní modely Pokročilé inženýrství funkcí a NLP Základy word2vec Komponenty word2vec modelu Logika word2vec modelu Rozšíření konceptu word2vec Aplikace word2vec modelu Případová studie: Aplikace pytle slov: automatická sumarizace textu pomocí zjednodušených a pravdivých Luhnových algoritmů Shlukování dokumentů, klasifikace a modelování témat Shlukování dokumentů a dolování vzorů (hierarchické shlukování, k-means, shlukování atd.) Porovnání a klasifikace dokumentů pomocí TFIDF, Jaccard a kosinusových vzdáleností Klasifikace dokumentů pomocí naivních Bayes a maximální entropie Identifikace důležitých textových prvků Snížení dimenzionality: Analýza hlavních komponent, Dekompozice singulární hodnoty faktorizace nezáporné matice Modelování témat a vyhledávání informací pomocí latentní sémantické analýzy Extrakce entit, analýza sentimentu a pokročilé modelování témat Pozitivní vs. text Pokročilé modelování témat: Latent Dirichlet Allocation Případové studie Těžba nestrukturovaných uživatelských recenzí Klasifikace sentimentu a vizualizace dolování dat v protokolech vyhledávání pro vzory použití Klasifikace textu Modelování témat

Požadavky

Znalost a povědomí o principech NLP a ocenění aplikací AI v podnikání

  21 hodiny

Počet účastníků



Price per participant

Reference (2)

Související kurzy

Smart Robots for Developers

  84 hodiny

Související kategorie