Zkuste nás kontaktovat

Návrh Školení

Podrobný rozvrh výcviku

  1. Úvod do zpracování přirozeného jazyka
    • Chápání NLP
    • Rámce pro NLP
    • Komerční aplikace NLP
    • Sběr dat ze webu
    • Práce s různými API pro získání textových dat
    • Práce a ukládání textových korpusů s úsporou obsahu a příslušných metadat
    • Výhody používání jazyka Python a rychlý kurz NLTK
  2. Praktické pochopení korpusu a datové sady
    • Proč potřebujeme korpus?
    • Analýza korpusu
    • Druhy datových atributů
    • Různé formáty souborů pro korpusy
    • Příprava datové sady pro aplikace NLP
  3. Chápání struktury vět
    • Složky NLP
    • Pochopení přirozeného jazyka
    • Morfologická analýza - kmen, slovo, token, slovní druhy
    • Syntaktická analýza
    • Sémantická analýza
    • Zvládání nejednoznačnosti
  4. Předzpracování textových dat
    • Korpus - surový text
      • Tokenizace vět
      • Stemming pro surový text
      • Lemmatizace surového textu
      • Odstranění funkcionalních slov
    • Korpus - surové věty
      • Tokenizace slov
      • Lemmatizace slov
    • Práce s maticemi Term-Dokument/Dokument-Term
    • Tokenizace textu do n-gramů a vět
    • Praktické a přizpůsobené předzpracování
  5. Analýza textových dat
    • Základní vlastnosti NLP
      • Parsery a parsování
      • Označování slovních druhů (POS tagging) a taggery
      • Rozpoznávání pojmenovaných entit
      • N-gramy
      • Sáček slov (Bag of words)
    • Statistické vlastnosti NLP
      • Koncepty lineární algebry pro NLP
      • Pravděpodobnostní teorie pro NLP
      • TF-IDF
      • Vectorizace
      • Kodéry a dekodéry
      • Normalizace
      • Pravděpodobnostní modely
    • Pokročilá inženýrská práce s funkcemi a NLP
      • Základy word2vec
      • Složky modelu word2vec
      • Logika modelu word2vec
      • Rozšíření konceptu word2vec
      • Aplikace modelu word2vec
    • Případová studie: Aplikace sáčku slov: automatické shrnování textu pomocí zjednodušeného a pravého Luhnova algoritmu
  6. Shlukování dokumentů, klasifikace a modelování témat
    • Shlukování dokumentů a těžení vzorů (hierarchické shlukování, k-means, shlukování atd.)
    • Srovnávání a klasifikace dokumentů pomocí mír TFIDF, Jacardovy vzdálenosti a kosinové vzdálenosti
    • Klasifikace dokumentů pomocí Naivního Bayese a Maximální entropie
  7. Identifikace důležitých prvků textu
    • Redukce dimenzionality: Analýza hlavních komponent, Singulární rozklad (SVD), nezáporná maticová faktorizace
    • Modelování témat a retrieval informací pomocí Latentní sémantické analýzy
  8. Extrakce entit, analýza sentimentu a pokročilé modelování témat
    • Pozitivní versus negativní: míra sentimentu
    • Teorie odpovědí na položku (Item Response Theory)
    • Označování slovních druhů a jeho aplikace: hledání jmen osob, míst a organizací zmiňovaných v textu
    • Pokročilé modelování témat: Latentní Dirichletovo rozdělení
  9. Případové studie
    • Těžení nestrukturovaných uživatelských recenzí
    • Klasifikace a vizualizace sentimentu dat produktových recenzí
    • Těžení záznamů vyhledávání pro identifikaci vzorů využití
    • Klasifikace textu
    • Modelování témat

Požadavky

Znalost a pochopení principů NLP a ocenění uplatnění umělé inteligence v podnikovém prostředí.

 21 Hodiny

Počet účastníků


Cena za účastníka

Reference (1)

Nadcházející kurzy

Související kategorie