Слушатели познакомятся с Apache Spark — специализированным инструментом для правильного хранения, обработки и анализа данных. Узнают, как работать с этим Big Data фреймворком с открытым исходным кодом для распределённой пакетной и потоковой обработки неструктурированных и слабоструктурированных больших данных, входящий в экосистему проектов Hadoop. Изучат парадигму MapReduce. Научатся работать с Dataframe API. Узнают, как построить pipeline машинного обучения для датасетов.