Изучите методы скрапинга и краулинга веб-сайтов, чтобы получить доступ к неограниченному объему данных в любом уголке Интернета в любом формате. С помощью этого практического руководства вы узнаете, как использовать скрипты Python и веб-API, чтобы одновременно собрать и обработать данные с тысяч или даже миллионов веб-страниц.Идеально подходящая для программистов, специалистов по безопасности и веб-администраторов, знакомых с языком Python, книга знакомит не только с основными принципами работы веб-скраперов, но и углубляется в более сложные темы, такие, как анализ сырых данных или использование скраперов для тестирования интерфейса веб-сайта. Примеры программного кода, приведенные в книге, помогут разобраться в этих принципах на практике. Прочитав эту книгу, вы научитесь: - выполнять парсинг сложных HTML страниц; - сканировать веб-страницы и сайты; - работать с API; - применять несколько методов хранения собранных данных; - скачивать, обрабатывать и извлекать данные из документов; - использовать инструменты и методы для очистки плохо отформатированных данных; - читать и записывать естественные языки; - выполнять краулинг с использованием регистрационных форм; - выполнять скрапинг Javascript-кода; - обрабатывать изображения и распознавать текст. Инструменты и примеры, приведенные в этой книге, позволяют легко автоматизировать несколько повторяющихся задач, высвобождая время для решения более насущных проблем. Это легко читаемая, ориентированная на конкретный результат книга, рассказывающая о реальных проблемах и решениях.
Izuchite metody skrapinga i kraulinga veb-saytov, chtoby poluchit dostup k neogranichennomu obemu dannykh v lyubom ugolke Interneta v lyubom formate. S pomoshchyu etogo prakticheskogo rukovodstva vy uznaete, kak ispolzovat skripty Python i veb-API, chtoby odnovremenno sobrat i obrabotat dannye s tysyach ili dazhe millionov veb-stranits.Idealno podkhodyashchaya dlya programmistov, spetsialistov po bezopasnosti i veb-administratorov, znakomykh s yazykom Python, kniga znakomit ne tolko s osnovnymi printsipami raboty veb-skraperov, no i uglublyaetsya v bolee slozhnye temy, takie, kak analiz syrykh dannykh ili ispolzovanie skraperov dlya testirovaniya interfeysa veb-sayta. Primery programmnogo koda, privedennye v knige, pomogut razobratsya v etikh printsipakh na praktike. Prochitav etu knigu, vy nauchites: - vypolnyat parsing slozhnykh HTML stranits; - skanirovat veb-stranitsy i sayty; - rabotat s API; - primenyat neskolko metodov khraneniya sobrannykh dannykh; - skachivat, obrabatyvat i izvlekat dannye iz dokumentov; - ispolzovat instrumenty i metody dlya ochistki plokho otformatirovannykh dannykh; - chitat i zapisyvat estestvennye yazyki; - vypolnyat krauling s ispolzovaniem registratsionnykh form; - vypolnyat skraping Javascript-koda; - obrabatyvat izobrazheniya i raspoznavat tekst. Instrumenty i primery, privedennye v etoy knige, pozvolyayut legko avtomatizirovat neskolko povtoryayushchikhsya zadach, vysvobozhdaya vremya dlya resheniya bolee nasushchnykh problem. Eto legko chitaemaya, orientirovannaya na konkretnyy rezultat kniga, rasskazyvayushchaya o realnykh problemakh i resheniyakh.
Learn the techniques of scraping and crawling websites to get access to an unlimited amount of data in every corner of the Internet in any format. With this practical tutorial, you'll learn how to use Python scripts and a web API to simultaneously collect and process data from thousands or even millions of web pages.
Ideal for programmers, security specialists and web administrators who are familiar with the Python language, the book not only introduces the basic principles of web scrapiron, but also delves into more advanced topics such as analysis of raw data or the use of scrapiron to test the interface of the website. Programming examples given in the book will help to understand these principles in practice.
The tools and examples in this book make it easy to automate several repetitive tasks, freeing up time to address more pressing problems. It is easy to read, focused on a concrete result of the book, telling about real problems and solutions.