Návrh Školení

Rychlý přehled

  • Zdroje dat
  • Správa dat
  • Doporučovací systémy
  • Cílový marketing

Typy dat

  • Strukturovaná vs nestrukturovaná data
  • Statická vs streamovaná data
  • Změnové, chování a demografické údaje
  • Data-odvedená vs uživatelsky odvedená analýza
  • platnost dat
  • Hmotnost, rychlost a rozmanitost dat

Modely

  • Vytváření modelů
  • Statistické modely
  • Strojové učení

Klasifikace dat

  • Klustering
  • kGroups, k-means, nejbližší sousedé
  • Mušle ant, pohyby ptáků

Přediktivní modely

  • Rostlinné stromy
  • Support vector machine (SVM)
  • Naive Bayes klasifikace
  • Neuronové sítě
  • Markovský model
  • Regrésní analýza
  • Souborové metody

ROI (návratnost investice)

  • Poměr přínosu a nákladů
  • Náklady na software
  • Náklady na vývoj
  • Potenciální přínosy

Vytváření modelů

  • Příprava dat (MapReduce)
  • Očištění dat
  • Výběr metod
  • Vývoj modelu
  • Testování modelu
  • Hodnocení modelu
  • Nasazení a integrace modelu

Přehled open source a komerčního software

  • Výběr balíčků R-project
  • Knihovny Pythonu
  • Hadoop a Mahout
  • Vybrané Apache projekty související s big data a analýzou dat
  • Komerční řešení
  • Integrace s existujícím softwarem a zdroji dat

Požadavky

Pochopení tradičních metod správy a analýzy dat jako SQL, datové sklady, business intelligence, OLAP atd... Pochopení základních statistik a pravděpodobnosti (střední hodnota, rozptyl, pravděpodobnost, podmíněná pravděpodobnost atd...)

 21 hodiny

Počet účastníků


Cena za účastníka

Reference (2)

Nadcházející kurzy

Související kategorie