Návrh Školení

Detailední tréninkový přehled

  1. Základy zpracování přirozeného jazyka (NLP)
    • Porozumění NLP
    • NLP frameworky
    • Obchodní aplikace NLP
    • Stahování dat z webu
    • Práce s různými API pro získání textových dat
    • Práce a ukládání textových korpusů, ukládání obsahu a relevantních metadat
    • Výhody použití Pythonu a NLTK crash course
  2. Praktické pojetí korpusu a datové sady
    • Proč potřebujeme korpus?
    • Analýza korpusu
    • Typy atributů dat
    • Různé formáty souborů pro korpusy
    • Příprava datové sady pro aplikace NLP
  3. Porozumění struktuře vět
    • Komponenty NLP
    • Zpracování přirozeného jazyka
    • Morfologická analýza - kořen, slovo, token, část řeči
    • Syntaxická analýza
    • Sémantická analýza
    • Zpracování ambiguit
  4. Předzpracování textových dat
    • Korpus - surový text
      • Tokinizace vět
      • Stemming pro surový text
      • Lemmizace surového textu
      • Odebrání stop slov
    • Korpus - surové věty
      • Tokinizace slov
      • Lemmizace slov
    • Práce s matricemi Term-Document/Document-Term
    • Tokinizace textu na n-gramy a věty
    • Praktické a přizpůsobené předzpracování
  5. Analýza textových dat
    • Základní funkce NLP
      • Parsery a parsování
      • TAGOVÁNÍ ČÁSTI ŘEČI (POS) a taggery
      • Rozpoznávání jmenových entit
      • N-gramy
      • Pytlík slov (bag of words)
    • Statistické funkce NLP
      • Koncepce lineární algebry pro NLP
      • Pravděpodobnostní teorie pro NLP
      • TF-IDF
      • Vektorizace
      • Kódery a dekódery
      • Noramalizace
      • Pravděpodobnostní modely
    • Pokročilé techniky inženýrství funkcí a NLP
      • Základy word2vec
      • Komponenty modelu word2vec
      • Logika modelu word2vec
      • Rozšíření konceptu word2vec
      • Aplikace modelu word2vec
    • Případová studie: Aplikace pytlíku slov (bag of words): automatické shrnutí textu pomocí zjednodušených a skutečných algoritmů Luhnova metody
  6. Uskupování, klasifikace a modelování tématických oblastí dokumentů
    • Uskupování dokumentů a hledání vzorů (hierarchické uskupování, k-means, atd.)
    • Porovnávání a klasifikace dokumentů pomocí TFIDF, Jaccardova a kosinového míry vzdálenosti
    • Klasifikace dokumentů pomocí Naivního Bayesovského algoritmu a Maximální entropie
  7. Identifikace důležitých textových prvků
    • Redukce dimenzionality: hlavní komponentní analýza, singulární rozklad, nezáporný maticový rozklad
    • Tématické modelování a získávání informací pomocí latentní sémantické analýzy
  8. Extrakce entit, analýza názoru a pokročilé tématické modelování
    • Pozitivní vs. negativní: stupeň názoru
    • Theorie odpovědí položek (Item Response Theory)
    • TAGOVÁNÍ ČÁSTI ŘEČI (POS) a její aplikace: hledání zmíněných osob, míst a organizací v textu
    • Pokročilé tématické modelování: Latentní Dirichletova alokace
  9. Případové studie
    • Těžba nestrukturovaných uživatelských recenzí
    • Klasifikace a vizualizace dat o hodnocení produktů
    • Těžba logů vyhledávání pro zjišťování vzorů použití
    • Klasifikace textu
    • Tématické modelování

Požadavky

Znalost a povědomí o principech NLP a ocenění aplikace umělé inteligence v podnikání

 21 hodiny

Počet účastníků


Cena za účastníka

Reference (1)

Nadcházející kurzy

Související kategorie