Návrh Školení

Úvod

Pochopení Big Data

Přehled Spark

Přehled Python

Přehled PySpark

    Distribuce dat pomocí rámce odolných distribuovaných datových sad Distribuce výpočtů pomocí operátorů Spark API

Nastavení Python pomocí Spark

Nastavení PySpark

Použití instancí EC2 Amazon Web Services (AWS) pro Spark

Nastavení Databricks

Nastavení klastru AWS EMR

Učení se základům Python programování

    Začínáme s Python Používání notebooku Jupyter Použití proměnných a jednoduchých datových typů Práce se seznamy Použití příkazů if Použití uživatelských vstupů Práce s smyčkami while Implementace funkcí Práce s třídami Práce se soubory a výjimkami Práce s projekty, daty a rozhraními API

Seznámení se základy Spark DataFrame

    Začínáme se Spark DataFrames Implementace základních operací se Sparkem pomocí skupinových a agregovaných operací Práce s časovými razítky a daty

Práce na projektovém cvičení Spark DataFrame

Porozumění Machine Learning s MLlib

Práce s MLlib, Spark a Python pro strojové učení

Pochopení regresí

    Učení teorie lineární regrese Implementace hodnotícího kódu regrese Práce na vzorovém cvičení lineární regrese Učení teorie logistické regrese Implementace kódu logistické regrese Práce na vzorovém cvičení logistické regrese

Pochopení Random Forest a rozhodovacích stromů

    Metody učícího se stromu Teorie Implementace rozhodovacích stromů a Random Forest Kódů Práce na vzorku Random Forest Klasifikační cvičení

Práce s K-means Clustering

    Pochopení teorie shlukování K-means Implementace kódu shlukování K-means Práce na vzorovém cvičení shlukování

Práce s Recommender Systems

Implementace zpracování přirozeného jazyka

    Porozumění Natural Language Processing (NLP) Přehled nástrojů NLP pracujících na ukázkovém cvičení NLP

Streamování se zapnutým Sparkem Python

    Přehled Streaming s Spark Ukázka Spark Streaming Cvičení

Závěrečné poznámky

Požadavky

  • Obecné znalosti programování

Publikum

  • Vývojáři
  • IT profesionálové
  • Data Scientists
 21 hodiny

Počet účastníků



Price per participant

Reference (2)

Související kurzy

Data Analysis with Python, Pandas and Numpy

14 hodiny

Accelerating Python Pandas Workflows with Modin

14 hodiny

Machine Learning with Python and Pandas

14 hodiny

Scaling Data Analysis with Python and Dask

14 hodiny

FARM (FastAPI, React, and MongoDB) Full Stack Development

14 hodiny

Developing APIs with Python and FastAPI

14 hodiny

Scientific Computing with Python SciPy

7 hodiny

Game Development with PyGame

7 hodiny

Web application development with Flask

14 hodiny

Advanced Flask

14 hodiny

Build REST APIs with Python and Flask

14 hodiny

GUI Programming with Python and Tkinter

14 hodiny

Kivy: Building Android Apps with Python

7 hodiny

GUI Programming with Python and PyQt

21 hodiny

Web Development with Web2Py

28 hodiny

Související kategorie