Книга посвящена практическим методам анализа больших объемов данных с использованием языка Python и фреймворка Spark, она знакомит с моделью программирования Spark и основами системы с открытым исходным кодом PySpark. Каждая глава описывает отдельный аспект анализа данных, показаны основы обработки данных в PySpark и Python на примере очистки данных, подробно освещается машинное обучение с помощью Spark. Книга поможет читателю понять, как устроен и работает весь конвейер PySpark для комплексной аналитики больших наборов данных: от создания и оценки моделей до очистки, предварительной обработки и исследования данных с особым акцентом на производственные приложения. Отдельные главы посвящены обработке изображений и библиотеке Spark NLP
Kniga posvyashchena prakticheskim metodam analiza bolshikh obemov dannykh s ispolzovaniem yazyka Python i freymvorka Spark, ona znakomit s modelyu programmirovaniya Spark i osnovami sistemy s otkrytym iskhodnym kodom PySpark. Kazhdaya glava opisyvaet otdelnyy aspekt analiza dannykh, pokazany osnovy obrabotki dannykh v PySpark i Python na primere ochistki dannykh, podrobno osveshchaetsya mashinnoe obuchenie s pomoshchyu Spark. Kniga pomozhet chitatelyu ponyat, kak ustroen i rabotaet ves konveyer PySpark dlya kompleksnoy analitiki bolshikh naborov dannykh: ot sozdaniya i otsenki modeley do ochistki, predvaritelnoy obrabotki i issledovaniya dannykh s osobym aktsentom na proizvodstvennye prilozheniya. Otdelnye glavy posvyashcheny obrabotke izobrazheniy i biblioteke Spark NLP