Курс «Spark» | Корпоративное обучение сотрудников в Т1 Цифровая Академия

Spark

Слушатели познакомятся с Apache Spark — специализированным инструментом для правильного хранения, обработки и анализа данных. Узнают, как работать с этим Big Data фреймворком с открытым исходным кодом для распределённой пакетной и потоковой обработки неструктурированных и слабоструктурированных больших данных, входящий в экосистему проектов Hadoop. Изучат парадигму MapReduce. Научатся работать с Dataframe API. Узнают, как построить pipeline машинного обучения для датасетов.

Длительность

20 часов

Уровень подготовки

Базовый

Формат

Асинхронный

Целевая аудитория

Дата-инженеры

Программа курса

HDFS. SparkSession

Dataframe API

План запроса

UDF. Оптимизация

RDD

Spark ML

Airflow

Скачать программу в pdf