Авторы этой книги - специалист по машинному обучению Amazon Элис Чжен и аналитик инновационной IT компании Concur Labs Аманда Казари. Конструирование признаков - это извлечение признаков из сырых необработанных данных и приведение их к формату, пригодному для обработки моделью машинного обучения. Это один из самых важных процессов в машинном обучении и одновременно один из самых сложных, ведь разнообразие моделей и данных не позволяет выделить общую тактику конструирования. И, тем не менее, авторам книги это удалось - здесь сформулированы более глубокие принципы работы с данными, проиллюстрированные конкретными примерами. В каждой главе описывается решение тех или иных задач: как представить текстовые данные или изображения, как понизить размерность автоматически сгенерированных признаков и т.д. В последней же главе все примеры объединяются в единую концепцию конструирования признаков в машинном обучении. Все примеры кода приведены на языке Python с использованием таких модулей, как NumPy, Pandas, Scikit-learn, Matplotlib, и выложены в репозитарии авторов на GitHub.
Avtory etoy knigi - spetsialist po mashinnomu obucheniyu Amazon Elis CHzhen i analitik innovatsionnoy IT kompanii Concur Labs Amanda Kazari. Konstruirovanie priznakov - eto izvlechenie priznakov iz syrykh neobrabotannykh dannykh i privedenie ikh k formatu, prigodnomu dlya obrabotki modelyu mashinnogo obucheniya. Eto odin iz samykh vazhnykh protsessov v mashinnom obuchenii i odnovremenno odin iz samykh slozhnykh, ved raznoobrazie modeley i dannykh ne pozvolyaet vydelit obshchuyu taktiku konstruirovaniya. I, tem ne menee, avtoram knigi eto udalos - zdes sformulirovany bolee glubokie printsipy raboty s dannymi, proillyustrirovannye konkretnymi primerami. V kazhdoy glave opisyvaetsya reshenie tekh ili inykh zadach: kak predstavit tekstovye dannye ili izobrazheniya, kak ponizit razmernost avtomaticheski sgenerirovannykh priznakov i t.d. V posledney zhe glave vse primery obedinyayutsya v edinuyu kontseptsiyu konstruirovaniya priznakov v mashinnom obuchenii. Vse primery koda privedeny na yazyke Python s ispolzovaniem takikh moduley, kak NumPy, Pandas, Scikit-learn, Matplotlib, i vylozheny v repozitarii avtorov na GitHub.