Если программирование напоминает волшебство, то веб-скрапинг — это очень сильное колдунство. Написав простую автоматизированную программу, можно отправлять запросы на веб-серверы, запрашивать с них данные, а затем анализировать их и извлекать необходимую информацию. Новое расширенное издание книги знакомит не только с веб-скрапингом, но и поможет собрать любого вида данные в современном Интернете.В части I основное внимание уделено механике веб-скрапинга: как с помощью Python запрашивать информацию с веб-сервера, производить базовую обработку серверного отклика и организовать автоматизированное взаимодействие с сайтами. В части II исследованы более специфичные инструменты и приложения, которые пригодятся при любом сценарии веб-скрапинга.- Разбирайте сложные HTML-страницы.- Разрабатывайте поисковые роботы с помощью фреймворка Scrapy.- Изучайте методы хранения данных, полученных с помощью скрапинга.- Считывайте и извлекайте данные из документов.- Очищайте и нормализуйте плохо отформатированные данные.- Читайте и пишите информацию на естественных языках.- Освойте поиск по формам и логинам.- Изучите скрапинг JavaScript и работу с API.- Используйте и пишите программы для преобразования изображений в текст.- Учитесь обходить скрапинговые ловушки и блокаторы ботов.- Протестируйте собственный сайт с помощью скрапинга.
Esli programmirovanie napominaet volshebstvo, to veb-skraping eto ochen silnoe koldunstvo. Napisav prostuyu avtomatizirovannuyu programmu, mozhno otpravlyat zaprosy na veb-servery, zaprashivat s nikh dannye, a zatem analizirovat ikh i izvlekat neobkhodimuyu informatsiyu. Novoe rasshirennoe izdanie knigi znakomit ne tolko s veb-skrapingom, no i pomozhet sobrat lyubogo vida dannye v sovremennom Internete.V chasti I osnovnoe vnimanie udeleno mekhanike veb-skrapinga: kak s pomoshchyu Python zaprashivat informatsiyu s veb-servera, proizvodit bazovuyu obrabotku servernogo otklika i organizovat avtomatizirovannoe vzaimodeystvie s saytami. V chasti II issledovany bolee spetsifichnye instrumenty i prilozheniya, kotorye prigodyatsya pri lyubom stsenarii veb-skrapinga.- Razbirayte slozhnye HTML-stranitsy.- Razrabatyvayte poiskovye roboty s pomoshchyu freymvorka Scrapy.- Izuchayte metody khraneniya dannykh, poluchennykh s pomoshchyu skrapinga.- Schityvayte i izvlekayte dannye iz dokumentov.- Ochishchayte i normalizuyte plokho otformatirovannye dannye.- CHitayte i pishite informatsiyu na estestvennykh yazykakh.- Osvoyte poisk po formam i loginam.- Izuchite skraping JavaScript i rabotu s API.- Ispolzuyte i pishite programmy dlya preobrazovaniya izobrazheniy v tekst.- Uchites obkhodit skrapingovye lovushki i blokatory botov.- Protestiruyte sobstvennyy sayt s pomoshchyu skrapinga.