"Книга "Изучаем Spark" занимает первые позиции в моем списке рекомендаций для тех, кто желает познакомиться с этим популярным фреймворком с целью создания приложений для обработки огромных объемов данных" - Бен Лорика (Ben Lorica), ведущий специалист по работе с данными, O'Reilly MediaОбъем обрабатываемых данных во всех областях человеческой деятельности продолжает расти быстрыми темпами. Существуют ли эффективные приемы работы с ним? В этой книге рассказывается об Apache Spark, открытой системе кластерных вычислений, которая позволяет быстро создавать высокопроизводительные программы анализа данных. C помощью Spark вы сможете манипулировать огромными объемами данных посредством простого API на Python, Java и Scala.Написанная разработчиками Spark, эта книга поможет исследователям данных и программистам быстро включиться в работу. Она расскажет, как организовать параллельное выполнение заданий всего несколькими строчками кода, и охватывает примеры от простых пакетных приложений до программ, осуществляющих обработку потоковых данных и использующих алгоритмы машинного обучения.С помощью этой книги вы:познакомитесь с особенностями Spark, такими как распределенные наборы данных, кэширование в памяти и интерактивные оболочки;изучите мощные встроенные библиотеки Spark, включая Spark SQL, Spark Streaming и MLlib;научитесь пользоваться единой парадигмой программирования вместо смеси инструментов, таких как Hive, Hadoop, Mahout и Storm;узнаете, как развертывать интерактивные, пакетные и потоковые приложения;исследуете возможности использования разных источников данных, включая HDFS, Hive, JSON и S3;овладеете продвинутыми приемами программирования на основе Spark, такими как разделение данных на разделы и применение совместно используемых переменных.
"Kniga "Izuchaem Spark" zanimaet pervye pozitsii v moem spiske rekomendatsiy dlya tekh, kto zhelaet poznakomitsya s etim populyarnym freymvorkom s tselyu sozdaniya prilozheniy dlya obrabotki ogromnykh obemov dannykh" - Ben Lorika (Ben Lorica), vedushchiy spetsialist po rabote s dannymi, O'Reilly MediaObem obrabatyvaemykh dannykh vo vsekh oblastyakh chelovecheskoy deyatelnosti prodolzhaet rasti bystrymi tempami. Sushchestvuyut li effektivnye priemy raboty s nim? V etoy knige rasskazyvaetsya ob Apache Spark, otkrytoy sisteme klasternykh vychisleniy, kotoraya pozvolyaet bystro sozdavat vysokoproizvoditelnye programmy analiza dannykh. C pomoshchyu Spark vy smozhete manipulirovat ogromnymi obemami dannykh posredstvom prostogo API na Python, Java i Scala.Napisannaya razrabotchikami Spark, eta kniga pomozhet issledovatelyam dannykh i programmistam bystro vklyuchitsya v rabotu. Ona rasskazhet, kak organizovat parallelnoe vypolnenie zadaniy vsego neskolkimi strochkami koda, i okhvatyvaet primery ot prostykh paketnykh prilozheniy do programm, osushchestvlyayushchikh obrabotku potokovykh dannykh i ispolzuyushchikh algoritmy mashinnogo obucheniya.S pomoshchyu etoy knigi vy:poznakomites s osobennostyami Spark, takimi kak raspredelennye nabory dannykh, keshirovanie v pamyati i interaktivnye obolochki;izuchite moshchnye vstroennye biblioteki Spark, vklyuchaya Spark SQL, Spark Streaming i MLlib;nauchites polzovatsya edinoy paradigmoy programmirovaniya vmesto smesi instrumentov, takikh kak Hive, Hadoop, Mahout i Storm;uznaete, kak razvertyvat interaktivnye, paketnye i potokovye prilozheniya;issleduete vozmozhnosti ispolzovaniya raznykh istochnikov dannykh, vklyuchaya HDFS, Hive, JSON i S3;ovladeete prodvinutymi priemami programmirovaniya na osnove Spark, takimi kak razdelenie dannykh na razdely i primenenie sovmestno ispolzuemykh peremennykh.