Законность и этика веб-скрейпинга
В 2010 году инженер-программист Пит Уорден создал веб-краулер для сбора данных с Facebook. Он собрал данные примерно 200 миллионов пользователей Facebook: имена, информацию о местоположении, друзей и интересы.
Школа Виктора Комлева
Тестирование веб-сайта с помощью скрейперов
Когда вы работаете над веб-проектами, которые включают много разных технологий, часто проверяют только серверную часть. Большинство языков программирования, таких как Python, имеют инструменты для тестирования, но часть, с
Школа Виктора Комлева
Параллельный веб-скрейпинг
Веб-скрейпинг — это быстрый процесс. По крайней мере, он обычно гораздо быстрее, чем найм дюжины стажёров для ручного копирования данных из интернета! Конечно, развитие технологий и непрерывное стремление
Школа Виктора Комлева
Веб-скрейпинг через прокси
Эта статья посвящена использованию прокси для веб-скрейпинга, что является важным шагом для серьезного скейлинга ваших скрейперов. Работая со скрейперами локально с вашего ноутбука или домашнего компьютера, вы скоро
Школа Виктора Комлева
Избегание ловушек при веб-скрапинге
Мало что может быть более раздражающим, чем попытка скрапить сайт, просмотреть результат и не увидеть данные, которые так явно видны в вашем браузере. Или отправка формы, которая должна
Школа Виктора Комлева
Получение данных с помощью API
JavaScript традиционно является наказанием для веб-пауков. В какой-то момент в древней истории интернета вы могли быть уверены, что запрос, который вы отправляли на веб-сервер, извлекал те же данные,
Школа Виктора Комлева
Обработка изображений и распознавание текста при парсинге в Python
Обработка изображений и распознавание текста — это огромное направление с множеством задач и последствий, начиная от самоуправляемых автомобилей Google и заканчивая торговыми автоматами, распознающими поддельные купюры. Эта глава
Школа Виктора Комлева
Скрапинг сайтов с JavaScript на Python
Языки клиентской стороны — это языки, которые выполняются в браузере, а не на веб-сервере. Успех языка клиентской стороны зависит от способности вашего браузера правильно интерпретировать и выполнять этот
Школа Виктора Комлева
Парсинг и формы авторизации
Одним из первых вопросов, который возникает, когда вы начинаете двигаться дальше базового уровня скрапинга веб-сайтов, является: «Как получить доступ к информации за экраном входа?» Веб все больше и
Школа Виктора Комлева
Обработка естественного языка
До сих пор данные, с которыми вы работали, в основном были в виде чисел или подсчитываемых значений. В большинстве случаев вы просто сохраняли данные без проведения какого-либо анализа
Школа Виктора Комлева