Návrh Školení

Podrobný tréninkový plán

  1. Úvod do NLP
    • Pochopení NLP
    • NLP rámce
    • Komerční aplikace NLP
    • Skrabování dat z webu
    • Práce s různými API pro získání textových dat
    • Práce a ukládání textových korpusů uloženého obsahu a relevantních metadata
    • Výhody používání Python a NLTK krátkého kurzu
  2. Praktické pochopení korpusu a datové sady
    • Proč potřebujeme korpus?
    • Analýza korpusu
    • Druhy atributů dat
    • Různá formáty souborů pro korpusy
    • Příprava datové sady pro aplikace NLP
  3. Pochopení struktury vět
    • Součásti NLP
    • Porozumění přirozenému jazyku
    • Morfologická analýza - kmen, slovo, token, značky řeči
    • Syntaktická analýza
    • Semantická analýza
    • Zvládání nejistoty
  4. Předzpracování textových dat
    • Korpus - surový text
      • Tokenizace vět
      • Stemming pro surový text
      • Lemmization surového textu
      • Odebrání stop slov
    • Korpus-surové věty
      • Word tokenizace
      • Word lemmatizace
    • Práce s maticemi Term-Dokument/Dokument-Term
    • Tokenizace textu do n-gramů a vět
    • Praktické a individualizované předzpracování
  5. Analýza textových dat
    • Základní funkce NLP
      • Balíře a balení
      • POS značkování a značičky
      • Početné entity rozpoznávání
      • N-gramy
      • Sací pytle slov
    • Statistické funkce NLP
      • Koncepce lineární algebry pro NLP
      • Pravděpodobnostní teorie pro NLP
      • TF-IDF
      • Vektorizace
      • Enkodéry a dekodéry
      • Normalizace
      • Pravděpodobnostní modely
    • Pokročilá inženýrství funkcí a NLP
      • Základy word2vec
      • Součásti modelu word2vec
      • Logika modelu word2vec
      • Rozšíření konceptu word2vec
      • Aplikace modelu word2vec
    • Případový studium: Aplikace sacího pytle slov: automatické shrnutí textu pomocí zjednodušených a pravých algoritmů Luhn's
  6. Klasterizace dokumentů, klasifikace a tématová modelování
    • Klasterizace dokumentů a výpočet vzorů (hierarchické klustrování, k-means, klustrování atd.)
    • Srovnání a klasifikace dokumentů pomocí TFIDF, Jaccardových a kosinových vzdálenostních měr
    • Klasifikace dokumentů pomocí Naïve Bayes a Maximum Entropy
  7. Identifikace důležitého textu Elements
    • Zmazání dimenzionality: Principální komponentní analýza, Singulární hodnotové rozkladu nezáporné matice faktorizace
    • Tématické modelování a získávání informací pomocí Latent Semantic Analysis
  8. Extrahování entit, Sentiment Analysis a pokročilé tématové modelování
    • Kladné vs. záporné: stupeň nálady
    • Theorie odpovědí na položky
    • Značení části mluvy a jeho aplikace: nalezení lidí, míst a organizací zmíněných v textu
    • Pokročilé tématové modelování: Latent Dirichlet Allocation
  9. Případové studie
    • Těžba nestrukturovaných uživatelských recenzí
    • Klasifikace nálady a vizualizace dat o produktových recenzích
    • Těžba záznamů vyhledávání pro výpočet vzorů používání
    • Klasifikace textu
    • Tématické modelování

Požadavky

Vedomosti a povědomí o zásadách NLP a ocenění aplikace AI v podnikání

 21 hodiny

Počet účastníků


Price per participant

Reference (1)

Upcoming Courses

Související kategorie