Законность и Этика Веб-Скрейпинга в России

В 2010 году инженер-программист Пит Уорден создал веб-краулер для сбора данных с Facebook. Он собрал данные примерно 200 миллионов пользователей Facebook: имена, информацию о местоположении, друзей и интересы. Естественно, Facebook это заметил и отправил ему предписания о прекращении деятельности, которые он выполнил. Когда его спросили, почему он подчинился предписанию, он ответил: «Большие данные? Дешево. Адвокаты? Не так дешево.»

В этой статье мы рассмотрим законодательные акты США и России, которые имеют отношение к веб-скрейпингу, и научимся анализировать законность и этичность конкретной ситуации веб-скрейпинга.

Прежде чем вы прочтете следующий раздел, помните очевидное: я преподаватель, инженер-программист, а не юрист. Не интерпретируйте ничего, что вы читаете здесь, как профессиональный юридический совет и не действуйте в соответствии с этим. Хотя я считаю, что могу обсуждать вопросы законности и этики веб-скрейпинга, вы должны проконсультироваться с юристом (а не инженером-программистом) перед тем, как предпринимать любые юридически неоднозначные проекты веб-скрейпинга.

Цель этой статьи — предоставить вам основу для понимания и обсуждения различных аспектов законности веб-скрейпинга, таких как интеллектуальная собственность, несанкционированный доступ к компьютеру и использование серверов, но это не должно заменять настоящую юридическую консультацию.

Содержание

Важные аспекты веб-скрейпинга:

Интеллектуальная собственность: Данные на веб-сайтах часто защищены законами об интеллектуальной собственности. Копирование данных без разрешения может нарушать авторские права или другие права на интеллектуальную собственность.
Несанкционированный доступ: В некоторых странах законы о компьютерных преступлениях запрещают доступ к компьютерам или сетям без разрешения. Скрейпинг может быть расценен как несанкционированный доступ, если он нарушает условия использования веб-сайта.
Использование серверов: Веб-скрейпинг может создавать значительную нагрузку на серверы веб-сайта, что может привести к нарушению условий использования или даже к юридическим проблемам, если это считается злоупотреблением ресурсами сервера.
Этика: Помимо законности, важно учитывать этическую сторону веб-скрейпинга. Важно уважать права владельцев веб-сайтов и пользователей данных.

Как избежать юридических проблем:

Получите разрешение: Если возможно, свяжитесь с владельцем веб-сайта и запросите разрешение на скрейпинг данных. Это не только законно, но и этично.
Следуйте условиям использования: Ознакомьтесь с условиями использования веб-сайта и убедитесь, что ваш скрейпинг не нарушает их.
Избегайте перегрузки серверов: Настройте свои скрейперы таким образом, чтобы минимизировать нагрузку на серверы веб-сайта. Используйте задержки между запросами и не отправляйте слишком много запросов за короткий промежуток времени.
Консультируйтесь с юристом: Если у вас есть сомнения в законности ваших действий, обязательно проконсультируйтесь с профессиональным юристом.

Торговые марки, авторские права, патенты и многое другое!

Пришло время для краткого курса по интеллектуальной собственности! Существует три основных типа интеллектуальной собственности: торговые марки (обозначаются символами ™ или ®), авторские права (знаменитый символ ©) и патенты (иногда обозначаются текстом о патентной защите или номером патента, но часто без каких-либо указаний).

Патенты

Патенты используются для декларации права собственности на изобретения. Нельзя патентовать изображения, текст или любую информацию как таковую. Хотя некоторые патенты, например, патенты на программное обеспечение, менее осязаемы, чем то, что мы обычно понимаем под «изобретениями», важно помнить, что патентуется именно вещь (или метод), а не данные, составляющие программное обеспечение. Если вы не собираетесь создавать что-то по скопированным диаграммам или кто-то не запатентует метод веб-скрейпинга, вы вряд ли случайно нарушите патент, занимаясь веб-скрейпингом.

Торговые марки

Торговые марки также вряд ли станут проблемой, но их нужно учитывать. Согласно Управлению по патентам и товарным знакам США:

Торговая марка — это слово, фраза, символ и/или дизайн, которые идентифицируют и отличают источник товаров одной стороны от товаров других. Знак обслуживания — это слово, фраза, символ и/или дизайн, которые идентифицируют и отличают источник услуги, а не товаров. Термин «торговая марка» часто используется для обозначения как товарных знаков, так и знаков обслуживания.

Помимо слов и символов, которые приходят на ум при упоминании торговых марок, могут быть зарегистрированы и другие описательные характеристики. Например, форма контейнера (как бутылки Coca-Cola) или даже цвет (наиболее известен розовый цвет стекловаты Owens Corning’s Pink Panther).

В отличие от патентов, право собственности на торговую марку сильно зависит от контекста использования. Например, если я хочу опубликовать блог с изображением логотипа Coca-Cola, я могу это сделать, если не подразумеваю, что мой блог спонсируется или публикуется компанией Coca-Cola. Но если я захочу выпускать новый безалкогольный напиток с логотипом Coca-Cola на упаковке, это будет явным нарушением товарного знака. Точно так же, хотя я мог бы использовать розовый цвет Pink Panther для нового напитка, я не могу использовать этот цвет для создания продукта для утепления домов.

Авторские права

Авторские права защищают оригинальные произведения авторства, такие как литература, музыка, фильмы, и программное обеспечение. В отличие от патентов, авторские права защищают именно выражение идей, а не сами идеи. Например, вы можете написать свою книгу о магической школе, но не можете копировать текст из «Гарри Поттера».

Принцип «добросовестного использования» (Fair Use)

Этот принцип часто обсуждается в контексте авторского права, но также применим к торговым маркам. Хранение или отображение торговой марки как ссылки на бренд, который она представляет, допустимо. Использование торговой марки таким образом, чтобы это могло ввести потребителя в заблуждение, недопустимо. Принцип «добросовестного использования» не применим к патентам. Например, запатентованное изобретение в одной отрасли нельзя применить в другой без соглашения с владельцем патента.

Особенности авторского права в России

В России авторские права регулируются Гражданским кодексом Российской Федерации. Основные принципы защиты аналогичны международным стандартам, но есть некоторые особенности:

Регистрация прав: В России авторские права возникают автоматически с момента создания произведения и не требуют регистрации, хотя регистрацию можно провести для доказательства авторства.
Срок защиты: Авторские права действуют в течение жизни автора и 70 лет после его смерти.
Коллективное управление правами: В России существуют организации, занимающиеся коллективным управлением авторскими правами, такие как Российское авторское общество (РАО) и Всероссийская организация интеллектуальной собственности (ВОИС).
Нарушения и санкции: За нарушения авторских прав предусмотрены гражданские, административные и уголовные санкции.

Понимание основ интеллектуальной собственности поможет вам избегать юридических проблем при веб-скрейпинге и других видах деятельности. Всегда лучше перестраховаться и проконсультироваться с юристом, чтобы не столкнуться с юридическими последствиями в будущем.

Закон об авторском праве

Как у товарных знаков, так и у патентов есть что-то общее: они должны быть официально зарегистрированы для того, чтобы быть признанными. В отличие от распространенного мнения, это не относится к авторским материалам. Что делает изображения, текст, музыку и т. д. авторскими? Это не предупреждение «Все права защищены» внизу страницы или что-то особенное о «опубликованных» по сравнению с «неопубликованными» материалами. Каждый ваш творческий материал автоматически подпадает под закон об авторском праве, как только вы создаете его.

Бернская Конвенция о защите литературных и художественных произведений, названная в честь Берна, Швейцария, где она была принята впервые в 1886 году, является международным стандартом для авторских прав. Эта конвенция гласит, по сути, что все страны-участницы должны признавать защиту авторского права на произведения граждан других стран-участниц так, как если бы они были гражданами их собственной страны. На практике это означает, что, будучи гражданином США, вы можете быть привлечены к ответственности в Соединенных Штатах за нарушение авторского права на материал, написанный кем-то в, скажем, Франции (и наоборот).

Вопросы авторских прав являются особенно актуальными для тех, кто занимается веб-скрапингом, в отличие от вопросов торговых марок или патентов. Если я скопирую содержимое чьего-то блога и опубликую его у себя, я могу подвергнуть себя риску судебного иска. К счастью, у меня есть несколько уровней защиты, которые могут сделать мой проект скрапинга блогов обоснованным, в зависимости от того, как он функционирует.

Прежде всего, авторское право распространяется только на творческие работы. Оно не охватывает статистику или факты. К счастью, большая часть данных, которые интересуют веб-скраперов, это именно статистика и факты.

Веб-скрапер, который собирает поэзию из разных источников и показывает её на вашем сайте, может нарушать закон об авторских правах. Однако, веб-скрапер, который собирает информацию о частоте публикаций поэзии со временем, не нарушает его. Сама поэзия в её первозданном виде является творческим трудом. Среднее количество слов в стихах, опубликованных на сайте по месяцам, является фактическими данными и не является творческой работой.

Контент, который публикуется дословно (в отличие от агрегированного или вычисленного контента из собранных данных), может не нарушать закон об авторских правах, если эти данные представляют собой цены, имена руководителей компаний или какую-то другую фактическую информацию.

Даже защищённый авторским правом контент может быть использован напрямую, в разумных пределах, в соответствии с Актом о цифровом веке и авторских правах 1998 года (DMCA). DMCA определяет некоторые правила для автоматизированной обработки материалов, защищённых авторским правом. DMCA — обширный документ с множеством конкретных правил, регулирующих всё, от электронных книг до телефонов. Однако два основных момента могут быть особенно важны для веб-скрапинга:

Под защитой «безопасной гавани», если вы собираете материал из источника, который, как вы полагаете, содержит только материалы, свободные от авторских прав, но пользователь разместил там материал, защищённый авторским правом, вы защищены, пока не удалили защищённый авторским правом материал после уведомления.
Вы не можете обходить меры безопасности (например, защиту паролем), чтобы собрать контент.

Кроме того, DMCA также признаёт, что доктрина «добросовестного использования» по 17-й статье Уголовного кодекса США § 107 применяется, и уведомления о удалении не могут быть выданы согласно защите «безопасной гавани», если использование материала, защищённого авторским правом, попадает под добросовестное использование.

Вкратце, вы никогда не должны публиковать материал, защищённый авторским правом, без разрешения оригинального автора или владельца авторских прав. Если вы храните материал, защищённый авторским правом, к которому у вас есть свободный доступ, в своей собственной непубличной базе данных в целях анализа, это допустимо. Если вы публикуете эту базу данных на своём сайте для просмотра или скачивания, это недопустимо. Если вы анализируете эту базу данных и публикуете статистику о количестве слов, список авторов по их продуктивности или какой-то другой мета-анализ данных, это допустимо. Если вы сопровождаете этот мета-анализ несколькими выбранными цитатами или краткими образцами данных для иллюстрации вашей точки зрения, это, вероятно, также допустимо.

При занятии веб-скрапингом в России, как и в любой другой стране, важно учитывать законодательство, касающееся авторских прав. Российское законодательство в этой области имеет свои особенности, которые следует знать и соблюдать, чтобы избежать юридических проблем.

Основные положения об авторском праве в России

Закон «Об авторском праве и смежных правах» — это основной нормативный акт, который регулирует отношения, связанные с созданием и использованием литературных, научных и художественных произведений. Авторское право в России возникает автоматически с момента создания произведения и не требует регистрации.
Произведения, не защищаемые авторским правом:
- Простые факты и данные (например, статистическая информация, курсы валют).
- Идеи, методы, процессы (но не их выражение в тексте, изображении и т.д.).
- Государственные символы и знаки (флаги, гербы).
- Официальные документы (законы, судебные решения) и их официальные переводы.
Добросовестное использование (аналог fair use в США): Российское законодательство допускает цитирование в научных, критических и полемических целях при условии обязательного указания автора и источника. Цитирование должно быть оправдано целями и характером использования, включая объем цитаты относительно всего текста.

Особенности веб-скрапинга в контексте российского законодательства

Сбор и использование данных:
- Сбор фактической информации: Скрапинг данных, которые являются фактами (например, цены, расписания, характеристики товаров), обычно не нарушает авторских прав, так как авторское право не распространяется на факты и данные.
- Сбор защищённых данных: Скрапинг текстов, фотографий, музыки и других объектов, защищённых авторским правом, без разрешения правообладателя может быть рассмотрен как нарушение авторских прав.
Использование собранных данных:
- Персональные данные: При скрапинге важно учитывать закон «О персональных данных». Сбор и обработка персональных данных без согласия субъекта данных запрещены.
- Публикация данных: Публикация собранных данных, если они содержат защищённое авторским правом содержимое, требует особого внимания. Необходимо получить разрешение от автора или проверить, не попадает ли использование под добросовестное использование.
Технические аспекты:
- Обход технических ограничений: В соответствии с законодательством, обход любых технических средств защиты информации (например, парольная защита) для доступа к данным может быть расценен как нарушение.
- Автоматизированное сбор информации: Некоторые сайты через свои условия использования запрещают автоматизированный сбор информации. Несоблюдение этих условий может привести к юридическим последствиям, в том числе и к блокировке доступа к сайту.

Авторские права и искусственный интеллект

Искусственный интеллект, способный генерировать новые «творческие» работы на основе существующего массива творческих произведений, представляет уникальные вызовы для законодательства об авторских правах.

Если результат работы генеративного ИИ напоминает существующее произведение, может возникнуть вопрос о нарушении авторских прав. Множество судебных дел использовалось в качестве прецедентов для того, чтобы определить, что значит «напоминает» в данном контексте. Однако, согласно исследованию Конгрессиональной службы исследований:

Тест на «существенное сходство» сложно определить и он варьируется в различных судах США. Суды по-разному описывают этот тест, например, требуя, чтобы произведения имели «существенно схожую общую концепцию и атмосферу» или «общий вид и ощущение», или чтобы «обычный разумный человек не смог отличить одно произведение от другого».

Проблема с современными сложными алгоритмами заключается в том, что может быть невозможно автоматически определить, создал ли ваш ИИ интересное и новаторское сочетание или что-то более… прямо производное. ИИ может не иметь возможности маркировать свой результат как «существенно схожий» с конкретным входом или даже определить, какие из входных данных он использовал для генерации своего творения! Первым признаком проблемы может быть письмо с требованием прекратить нарушение или повестка в суд.

Помимо вопросов о нарушении авторских прав на результаты работы генеративного ИИ, предстоящие судебные дела проверяют, может ли сам процесс обучения нарушать права обладателя авторских прав.

Для обучения этих систем почти всегда необходимо загрузить, хранить и воспроизводить защищенные авторским правом работы. Хотя скачивание защищенного авторским правом изображения или текста может показаться несущественным, это не так уж и отличается от скачивания защищенного авторским правом фильма — ведь вы бы не стали скачивать фильм, не так ли?

Некоторые утверждают, что это относится к справедливому использованию, и они не публикуют или не используют контент таким образом, который мог бы повлиять на его рынок.

На момент написания этого текста, OpenAI утверждает перед Офисом по патентам и торговым маркам США, что его использование больших объемов материалов, защищенных авторским правом, является справедливым использованием. Хотя этот аргумент в основном применим в контексте генеративных алгоритмов ИИ, я подозреваю, что его исход будет применим к веб-скрейперам, созданным для различных целей.

Адаптация и дополнение для понимания в контексте России

В России, как и в США, использование ИИ для создания произведений, похожих на существующие, может вызвать вопросы о нарушении авторских прав. Российское законодательство также предусматривает концепцию справедливого использования, но она имеет свои особенности:

Сходство и оригинальность: В России суды также используют тест существенного сходства, аналогичный американскому. Произведения считаются схожими, если у них похожая основная идея и исполнение, которые воспринимаются как идентичные средним разумным потребителем.
Обучение ИИ и авторские права: Если ИИ использует защищенные авторским правом работы для обучения, это может быть интерпретировано как нарушение, если только эти действия не попадают под одно из исключений, например, цитирование для научных работ или использование в образовательных целях без цели извлечения прибыли.
Справедливое использование в России: В российском контексте допустимость использования защищенных авторским правом работ без разрешения включает в себя:
- Цитирование в научных и исследовательских работах при указании источника.
- Использование в образовательных материалах.
- Использование в критических и аналитических статьях.
Процесс обучения ИИ: Аналогично вызовам, с которыми сталкивается OpenAI, российские разработчики ИИ могут столкнуться с необходимостью доказать, что загрузка и использование больших объемов защищенных данных для обучения ИИ является законным. Это может включать в себя доказательство того, что такое использование не влияет на рыночную стоимость оригинальных произведений.
Заключение для российских разработчиков: Разработчики веб-скрейперов и ИИ в России должны быть особенно осторожны и, возможно, проконсультироваться с юристами при работе с защищенными авторским правом данными. Учитывая международный характер многих онлайн-проектов, важно также следить за развитием законодательства и судебной практики в других странах, включая США, поскольку они могут влиять на общие тенденции и практики.

Нарушение Права на Вещи (Trespass to Chattels) и Веб-скрейпинг

Нарушение права на вещи (Trespass to chattels) — это юридический термин, который существенно отличается от того, что мы обычно понимаем под «нарушением права на частную собственность». Если последнее обычно связано с недвижимостью и земельными участками, то нарушение права на вещи касается переносимого имущества, или движимых вещей (chattels).

Этот термин применяется, когда с вашим имуществом происходит какое-то вмешательство, не позволяющее вам получить доступ к нему или использовать его по назначению.

В эпоху облачных вычислений легко забыть, что веб-сервера — это реальные, осязаемые ресурсы. Однако сервера состоят из дорогостоящих компонентов и требуют хранения, мониторинга, охлаждения, очистки, а также потребляют огромное количество электроэнергии. По некоторым оценкам, компьютеры потребляют 10% мирового электричества. Если вам трудно это представить, подумайте о огромных серверных фермах Google, каждая из которых подключена к большим электростанциям.

Сервера являются дорогостоящими ресурсами, и они интересны с юридической точки зрения, потому что владельцы веб-сайтов обычно хотят, чтобы люди использовали их ресурсы (то есть заходили на их сайты), но они не хотят, чтобы эти ресурсы использовались слишком активно. Просмотр сайта через ваш браузер — это нормально; запуск полномасштабной атаки типа «Отказ в обслуживании» (DDOS) — очевидно, что нет.

Для того чтобы веб-скрейпер нарушил правила нарушения права на вещи, должны быть выполнены три критерия:

Отсутствие согласия
- Поскольку веб-серверы открыты для всех, обычно они «дают согласие» и на веб-скрейпинг. Однако многие соглашения об использовании веб-сайтов (Terms of Service) специально запрещают использование скрейперов. Кроме того, любые уведомления с требованием прекратить нарушение могут отменить это согласие.
Реальный ущерб
- Серверы стоят дорого. В дополнение к стоимости серверов, если ваши скрейперы выводят веб-сайт из строя или ограничивают его способность обслуживать других пользователей, это может увеличить «ущерб», который вы причиняете.
Намеренность
- Если вы пишете код, вы знаете, что он делает! Попытка утверждать об отсутствии намерений, скорее всего, не увенчается успехом при защите вашего веб-скрейпера.

Для применения нарушения права на вещи необходимо выполнение всех трех критериев. Однако, если вы нарушаете соглашение об использовании сервиса, но не причиняете реального ущерба, не думайте, что вы защищены от юридических действий. Вы вполне можете нарушать закон об авторском праве, DMCA, Закон о борьбе с компьютерным мошенничеством и злоупотреблениями (Computer Fraud and Abuse Act) или один из многих других законов, применимых к веб-скрейперам.

Адаптация для понимания в контексте России

В России концепция нарушения права на вещи не столь распространена, как в США, но аналогичные принципы можно рассмотреть через призму законодательства о защите прав собственности и использовании информационных ресурсов.

Отсутствие согласия: В России, если владелец веб-сайта через «Условия использования» ясно указал на запрет скрейпинга, использование скрейперов без разрешения может рассматриваться как нарушение этих условий и, как следствие, как неправомерное вмешательство в работу сервера.
Реальный ущерб: Если скрейпинг приводит к сбоям в работе сайта, уменьшению его доступности для других пользователей или другим техническим проблемам, это может быть основанием для претензий о возмещении ущерба, основанного на стоимости ресурсов и потерях от их недоступности.
Намеренность: Также как и в США, в России трудно отрицать намерения, если вы разработали и запустили скрейпер, зная, что он нарушает установленные веб-сайтом правила.

Важно помнить, что даже если вы не причиняете значительного ущерба, нарушение «Условий использования» сайта может привести к юридическим последствиям, включая требования о прекращении нарушения и возможное взыскание убытков.

Кроме того, использование данных, полученных скрейпингом, может нарушать законы об авторском праве, если эти данные защищены авторским правом и были использованы без разрешения правообладателя.

Таким образом, при использовании веб-скрейперов важно не только технически и эффективно собирать данные, но и учитывать юридические аспекты взаимодействия с целевыми ресурсами, чтобы избежать возможных правовых проблем.

Регулирование активности ваших ботов

В прошлые времена веб-серверы были намного мощнее персональных компьютеров. Даже часть определения сервера включала понятие «большой компьютер». Однако сейчас ситуация изменилась. Например, мой персональный компьютер оснащен процессором с частотой 3.5 ГГц и имеет 32 ГБ оперативной памяти, тогда как средний экземпляр AWS имеет всего 4 ГБ оперативной памяти и примерно 3 ГГц процессорной мощности.

С приличным интернет-соединением и выделенной машиной даже один персональный компьютер может создать значительную нагрузку на многие веб-сайты, иногда даже парализовать их работу или полностью вывести из строя. Если только не происходит медицинская чрезвычайная ситуация, когда единственное спасение — это собрать все данные с веб-сайта Джо Шмо за две секунды, нет никаких оснований для агрессивного обращения с сайтом.

Наблюдаемый бот никогда не завершает работу. Иногда лучше оставить краулеры работать на ночь, а не в середине дня или вечером по нескольким причинам:

Если у вас есть около 8 часов, даже с ледниковой скоростью в 2 секунды на страницу, вы можете обойти более 14 000 страниц. Когда время не является критичным фактором, нет соблазна увеличивать скорость вашего краулера.
Предполагая, что целевая аудитория веб-сайта находится в вашем регионе (скорректируйте это предположение для удаленных целевых аудиторий), нагрузка на трафик сайта, вероятно, будет намного ниже ночью, что означает, что ваше сканирование не будет усугублять проблемы пикового трафика.
Вы экономите время, спя, вместо того чтобы постоянно проверять свои логи на предмет новой информации. Подумайте, как будет приятно проснуться утром и обнаружить совершенно новые данные!

Рассмотрим следующие сценарии:

У вас есть веб-краулер, который обходит веб-сайт Джо Шмо, агрегируя некоторые или все его данные.
У вас есть веб-краулер, который обходит сотни маленьких веб-сайтов, агрегируя некоторые или все их данные.
У вас есть веб-краулер, который обходит очень большой сайт, такой как Википедия.

В первом сценарии лучше всего оставить бота работать медленно и ночью.

В втором сценарии лучше всего обходить каждый веб-сайт по круговой схеме (round-robin), а не сканировать их медленно, один за другим. В зависимости от того, сколько сайтов вы сканируете, это означает, что вы можете собирать данные так быстро, как позволяют ваше интернет-соединение и машина, но нагрузка на каждый отдельный удаленный сервер остается разумной.

Это можно реализовать программно, используя несколько потоков (где каждый отдельный поток обходит один сайт и приостанавливает свое выполнение) или используя списки Python для отслеживания сайтов.

В третьем сценарии нагрузка, которую ваше интернет-соединение и домашняя машина могут создать на сайте, как Википедия, вряд ли будет заметна или вызовет беспокойство. Однако, если вы используете распределенную сеть машин, ситуация, очевидно, будет другой.

Используйте осторожность и спрашивайте представителя компании, когда это возможно.

Закон о борьбе с компьютерными преступлениями в контексте веб-скрейпинга

В начале 1980-х компьютеры начали активно внедряться не только в академические круги, но и в бизнес-сферу. В этот период вирусы и вредоносные программы впервые были признаны не просто как неудобство, а как серьёзная угроза, способная привести к значительным финансовым потерям. В 1983 году фильм «Игры войны» с Мэттью Бродериком привлёк внимание общественности и президента Рональда Рейгана к этой проблеме. В ответ на это в 1986 году был принят Закон о борьбе с компьютерным мошенничеством и злоупотреблениями (CFAA) в США.

Хотя многие могут считать, что CFAA относится только к хакерам, занимающимся распространением вирусов, этот закон также имеет важные последствия для разработчиков веб-скрейперов. Представьте себе скрейпер, который сканирует интернет в поисках форм входа с лёгкими паролями или собирает конфиденциальную информацию, случайно оставленную в скрытых, но общедоступных местах. Все эти действия являются незаконными по CFAA.

Закон определяет семь основных уголовных правонарушений:

Сознательный несанкционированный доступ к компьютерам, принадлежащим правительству США, и получение информации с этих компьютеров.
Сознательный несанкционированный доступ к компьютеру с целью получения финансовой информации.
Сознательный несанкционированный доступ к компьютеру, принадлежащему правительству США, влияющий на использование этого компьютера правительством.
Сознательный доступ к любому защищённому компьютеру с попыткой мошенничества.
Сознательный доступ к компьютеру без авторизации и причинение ущерба этому компьютеру.
Распространение или торговля паролями или информацией об авторизации для компьютеров, используемых правительством США или компьютеров, влияющих на межгосударственную или международную торговлю.
Попытки вымогательства денег или «чего-либо ценного» путём причинения ущерба или угрозы причинения ущерба любому защищённому компьютеру.

Адаптация для российских разработчиков веб-скрейперов

В России аналогом CFAA является законодательство, регулирующее информационную безопасность, включая статьи Уголовного кодекса РФ, касающиеся несанкционированного доступа к компьютерной информации (ст. 272 УК РФ), создание, использование и распространение вредоносных программ (ст. 273 УК РФ), а также модификацию компьютерной информации (ст. 274 УК РФ).

Практические советы для веб-скрейперов в России:

Соблюдение политики доступа: Никогда не обходите системы аутентификации и авторизации сайтов. Если вам нужен доступ к защищенным данным, получите официальное разрешение от владельца ресурса.
Избегайте сканирования чувствительной информации: Не пытайтесь собирать личные данные, финансовую информацию или другие конфиденциальные данные без явного разрешения.
Умеренное использование ресурсов: Регулируйте частоту и скорость запросов к сайтам, чтобы не создавать излишней нагрузки на серверы и не быть расценённым как атака DDOS.
Уважение к robots.txt: Всегда проверяйте и соблюдайте директивы файла robots.txt сайтов, которые указывают допустимые для сканирования разделы.
Легальное использование собранных данных: Удостоверьтесь, что использование данных, полученных в результате скрейпинга, не нарушает авторские права и не противоречит условиям использования сайта.
Получение разрешения: Когда это возможно, получайте разрешение на использование скрейперов, особенно если предполагается сбор большого объема данных или данных с чувствительных ресурсов.
Информированность о законах: Оставайтесь в курсе изменений в законодательстве об информационной безопасности и защите персональных данных, чтобы ваша деятельность была законной и соответствовала современным требованиям.

Следование этим рекомендациям поможет избежать правовых рисков и сделает использование веб-скрейперов более безопасным и ответственным.

Файл `robots.txt` и Условия использования сайта

Условия использования сайта (Terms of Service, TOS) и файлы robots.txt находятся в интересной юридической зоне. Если сайт доступен публично, право владельца сайта декларировать, какое программное обеспечение может и не может получать к нему доступ, является предметом дискуссий. Утверждение, что «просмотр сайта через браузер допустим, а через программу, написанную вами, — нет», может быть проблематичным.

На большинстве сайтов ссылка на Условия использования (TOS) находится в подвале на каждой странице. TOS содержит не только правила для веб-краулеров и автоматизированного доступа; часто там указывается, какие данные собирает сайт, что он с ними делает, а также обычно присутствует юридическое отказ от ответственности за услуги, предоставляемые сайтом, без каких-либо явных или подразумеваемых гарантий.

Если вас интересует поисковая оптимизация (SEO) или технологии поисковых систем, вы, вероятно, слышали о файле robots.txt. Если зайти на любой крупный сайт и поискать его файл robots.txt, вы найдете его в корневой веб-папке: http://website.com/robots.txt.

Синтаксис для файлов robots.txt был разработан в 1994 году во время начального бума технологий поисковых систем. В это время поисковые системы, сканирующие весь интернет, такие как AltaVista и DogPile, начали серьезно конкурировать с простыми списками сайтов, организованными по темам, как это делал Yahoo! Этот рост поиска в интернете означал взрыв не только в количестве веб-краулеров, но и в доступности информации, собранной этими веб-краулерами, для обычного гражданина.

Хотя сегодня мы можем воспринимать такую доступность как должное, некоторые вебмастера были шокированы, когда информация, которую они опубликовали глубоко в структуре файлов своего сайта, стала доступна на главной странице результатов поиска в крупных поисковых системах. В ответ на это был разработан синтаксис для файлов robots.txt, называемый Протоколом исключения роботов (Robots Exclusion Protocol).

В отличие от условий использования, которые часто говорят о веб-краулерах в общих терминах и на очень человеческом языке, robots.txt может быть разобран и использован автоматизированными программами крайне легко. Хотя это может показаться идеальной системой для решения проблемы нежелательных ботов раз и навсегда, имейте в виду, что:

Нет официального органа по синтаксису robots.txt. Это общепринятая и обычно хорошо соблюдаемая конвенция, но ничто не мешает кому-то создать свою версию файла robots.txt (кроме того факта, что ни один бот не будет его узнавать или выполнять, пока он не станет популярным). Тем не менее, это широко принятая конвенция, в основном потому, что она относительно проста, и нет стимула для компаний изобретать свой стандарт или пытаться его улучшить.
Нет способа юридически или технически обеспечить соблюдение файла robots.txt. Это всего лишь знак с надписью «Пожалуйста, не заходите в эти части сайта». Многие библиотеки веб-скрейпинга уважают robots.txt, хотя это обычно настройка по умолчанию, которую можно изменить. Независимо от настроек библиотеки, написание веб-краулера, который соблюдает robots.txt, на самом деле технически более сложно, чем написание краулера, который его игнорирует. В конце концов, вам нужно прочитать, разобрать и применить содержимое robots.txt к логике вашего кода.

Синтаксис протокола исключения роботов

Синтаксис довольно прост. Как и в Python (и многих других языках), комментарии начинаются с символа #, заканчиваются новой строкой и могут использоваться в любом месте файла.

Первая строка файла, помимо комментариев, начинается с User-agent: , который указывает, к какому пользователю применяются следующие правила. За этим следует набор правил, либо Allow: , либо Disallow: , в зависимости от того, разрешен ли боту доступ к этой секции сайта. Звёздочка (*) указывает на подстановочный знак и может использоваться для описания как User-agent, так и URL.

Если правило следует за правилом, которому оно кажется противоречить, последнее правило имеет приоритет. Например:

# Welcome to my robots.txt file!
User-agent: *
Disallow: *
User-agent: Googlebot
Allow: *
Disallow: /private

В этом случае всем ботам запрещен доступ к любой части сайта, кроме Googlebot, которому разрешен доступ везде, кроме директории /private.

Адаптация для России

В России, как и в других странах, файл robots.txt и Условия использования (TOS) играют ключевую роль в определении правил обхода сайта скрейперами.

Файл `robots.txt` на примере Twitter (также известного как «X»)

Файл robots.txt Twitter содержит чёткие инструкции для ботов поисковых систем, таких как Google, Yahoo!, Yandex (популярный российский поисковик), Microsoft и других ботов, которые не попадают под вышеупомянутые категории. Раздел для Google (который выглядит идентично разрешениям, предоставленным всем другим категориям ботов) выглядит так:

# Google Search Engine Robot
User-agent: Googlebot
Allow: /?_escaped_fragment_
Allow: /?lang=
Allow: /hashtag/*?src=
Allow: /search?q=%23
Disallow: /search/realtime
Disallow: /search/users
Disallow: /search/*/grid
Disallow: /*?
Disallow: /*/followers
Disallow: /*/following

Заметьте, что Twitter ограничивает доступ к частям своего сайта, для которых существует API. Поскольку у Twitter есть хорошо регулируемое API (и оно может приносить прибыль за счёт лицензирования), компании в интересах запретить любые «самодельные API», которые собирают информацию, самостоятельно сканируя сайт.

Хотя файл, указывающий вашему краулеру, куда ему нельзя заходить, может показаться ограничивающим на первый взгляд, это может оказаться благом для разработки веб-краулеров. Если вы находите в файле robots.txt запрет на сканирование определённого раздела сайта, вебмастер, по сути, говорит, что он не против краулеров во всех других разделах сайта. В конце концов, если бы это было не так, они бы ограничили доступ при написании robots.txt.

Например, раздел файла robots.txt Википедии, который применяется к общим веб-скрейперам (в отличие от поисковых систем), чрезвычайно допускающий. Он даже содержит текст, понятный человеку, приветствующий ботов (это мы!) и блокирует доступ только к некоторым страницам, таким как страница входа, страница поиска и страница «Случайная статья»:

#
# Friendly, low-speed bots are welcome viewing article pages, but not
# dynamically generated pages please.
#
# Inktomi's "Slurp" can read a minimum delay between hits; if your bot supports
# such a thing using the 'Crawl-delay' or another instruction, please let us
# know.
#
# There is a special exception for API mobileview to allow dynamic mobile web &
# app views to load section content.
# These views aren't HTTP-cached but use parser cache aggressively and don't
# expose special: pages etc.
#
User-agent: *
Allow: /w/api.php?action=mobileview&
Disallow: /w/
Disallow: /trap/
Disallow: /wiki/Especial:Search
Disallow: /wiki/Especial%3ASearch
Disallow: /wiki/Special:Collection
Disallow: /wiki/Spezial:Sammlung
Disallow: /wiki/Special:Random
Disallow: /wiki/Special%3ARandom
Disallow: /wiki/Special:Search
Disallow: /wiki/Special%3ASearch
Disallow: /wiki/Spesial:Search
Disallow: /wiki/Spesial%3ASearch
Disallow: /wiki/Spezial:Search
Disallow: /wiki/Spezial%3ASearch
Disallow: /wiki/Specjalna:Search
Disallow: /wiki/Specjalna%3ASearch
Disallow: /wiki/Speciaal:Search
Disallow: /wiki/Speciaal%3ASearch
Disallow: /wiki/Speciaal:Random
Disallow: /wiki/Speciaal%3ARandom
Disallow: /wiki/Speciel:Search
Disallow: /wiki/Speciel%3ASearch
Disallow: /wiki/Speciale:Search
Disallow: /wiki/Speciale%3ASearch
Disallow: /wiki/Istimewa:Search
Disallow: /wiki/Istimewa%3ASearch
Disallow: /wiki/Toiminnot:Search
Disallow: /wiki/Toiminnot%3ASearch

Выбор того, будут ли ваши веб-краулеры соблюдать robots.txt, зависит от вас, но я настоятельно рекомендую это, особенно если у вас есть краулеры, которые бесконтрольно сканируют веб.

Адаптация для России

В России, как и в других странах, файл robots.txt и Условия использования (TOS) играют ключевую роль в определении правил работы скрейперов на сайте.

Три случая веб-скрейпинга и их юридические последствия

Веб-скрейпинг — это область с неограниченными возможностями, и есть множество способов попасть в юридические неприятности из-за его использования. В этом разделе рассматриваются три случая, которые затрагивают различные аспекты законодательства, применимые к веб-скрейперам, и то, как они использовались в каждом конкретном случае.

eBay против Bidder’s Edge и нарушение права на вещи (Trespass to Chattels)

В 1997 году рынок Beanie Baby был на подъеме, технологический сектор был в центре внимания, а онлайн-аукционные дома были новой горячей темой в интернете. Компания Bidder’s Edge была создана для создания нового типа мета-аукционного сайта. Вместо того чтобы заставлять вас переходить с одного аукционного сайта на другой, сравнивая цены, она агрегировала данные со всех текущих аукционов по конкретному продукту (например, по новой кукле Furby или копии Spice World) и указывала на сайт с самой низкой ценой.

Bidder’s Edge достигла этого с помощью армии веб-скрейперов, которые постоянно отправляли запросы веб-серверам различных аукционных сайтов для получения информации о цене и продукте. Среди всех аукционных сайтов eBay был самым крупным, и Bidder’s Edge обращался к серверам eBay около 100 000 раз в день. Даже по современным меркам это много трафика.

По данным eBay, это составляло 1.53% от его общего интернет-трафика в то время, и, конечно, компания была этим недовольна.

eBay отправила Bidder’s Edge письмо с требованием прекратить нарушение и предложением лицензировать свои данные. Однако переговоры о лицензировании не увенчались успехом, и Bidder’s Edge продолжила сканировать сайт eBay.

eBay попыталась заблокировать IP-адреса, используемые Bidder’s Edge, заблокировав 169 IP-адресов, хотя Bidder’s Edge смогла обойти это, используя прокси-серверы. Как вы можете себе представить, это было раздражающим и неустойчивым решением для обеих сторон — Bidder’s Edge постоянно пыталась найти новые прокси-серверы и покупать новые IP-адреса, пока старые блокировались, а eBay была вынуждена поддерживать большие списки файерволов.

Наконец, в декабре 1999 года, eBay подала в суд на Bidder’s Edge по обвинению в нарушении права на вещи. Поскольку серверы eBay были реальными, осязаемыми ресурсами, которыми она владела, и ей не нравилось необычное использование их Bidder’s Edge, нарушение права на вещи казалось идеальным законом для использования. Фактически, в современное время нарушение права на вещи идет рука об руку с судебными исками по веб-скрейпингу и чаще всего рассматривается как закон в области ИТ.

Суды постановили, что для того чтобы eBay выиграла свое дело, используя нарушение права на вещи, eBay должна была показать две вещи:

Bidder’s Edge знала, что ей явно запрещено использовать ресурсы eBay.
eBay понесла финансовые потери в результате действий Bidder’s Edge.

Учитывая записи о письмах eBay с требованием прекратить нарушение, вместе с ИТ-записями, показывающими использование сервера и фактические затраты, связанные с серверами, это было относительно легко доказать для eBay. Конечно, ни одна крупная судебная битва не заканчивается легко: были поданы встречные иски, многим адвокатам было выплачено вознаграждение, и вопрос был в конечном итоге урегулирован в судебном порядке за неустановленную сумму в марте 2001 года.

Так значит ли это, что любое несанкционированное использование чужого сервера автоматически является нарушением права на вещи? Не обязательно. Bidder’s Edge была крайним случаем; она использовала столько ресурсов eBay, что компании пришлось покупать дополнительные серверы, платить больше за электричество и, возможно, нанимать дополнительный персонал. Хотя увеличение на 1.53% может показаться незначительным, в крупных компаниях это может привести к значительным затратам.

Intel Corp против Hamidi

В 2003 году Верховный суд Калифорнии вынес решение по другому делу, Intel Corp против Hamidi, в котором бывший сотрудник Intel (Hamidi) отправлял письма, которые Intel не одобрял, через серверы Intel сотрудникам Intel. Суд сказал:

«Требование Intel терпит неудачу не потому, что электронная почта, передаваемая через интернет, пользуется уникальным иммунитетом, но потому что правонарушение нарушения права на вещи — в отличие от упомянутых выше причин действий — не может быть доказано в Калифорнии без свидетельств ущерба личному имуществу истца или правового интереса к нему.»

По сути, Intel не смог доказать, что затраты на передачу шести писем, отправленных Hamidi всем сотрудникам (каждое из которых, интересно, предлагало возможность быть удаленным из списка рассылки Hamidi — по крайней мере, он был вежлив!) привели к финансовому ущербу для Intel. Это не лишило Intel какого-либо имущества или использования его имущества.

Дело «Соединенные Штаты против Ауэрнхаймера» и Закон о борьбе с компьютерным мошенничеством (CFAA)

Если информация свободно доступна в интернете для человека, использующего веб-браузер, маловероятно, что доступ к той же информации в автоматизированном режиме приведет к проблемам с федеральными властями. Однако, как легко может обнаружить любопытный человек маленькую уязвимость в безопасности, так и эта маленькая уязвимость может быстро превратиться в гораздо большую и более опасную, когда на сцену выходят автоматизированные скрейперы.

В 2010 году Эндрю Ауэрнхаймер и Даниэль Спитлер заметили интересную особенность iPad’ов: когда вы посещали веб-сайт AT&T с их помощью, AT&T перенаправляло вас на URL, содержащий уникальный идентификационный номер вашего iPad:

https://dcp2.att.com/OEPClient/openPage?ICCID=<idNumber>&IMEI=

На этой странице находилась форма входа с электронной почтой пользователя, чей ID номер был в URL. Это позволяло пользователям получить доступ к своим учетным записям, просто введя свой пароль.

Хотя потенциальных номеров ID iPad было много, с помощью веб-скрейпера можно было перебирать возможные номера, собирая адреса электронной почты по пути. Предоставляя пользователям эту удобную функцию входа, AT&T, по сути, сделала адреса электронной почты своих клиентов общедоступными в интернете.

Ауэрнхаймер и Спитлер создали скрейпер, который собрал 114 000 этих адресов электронной почты, среди которых были личные адреса знаменитостей, генеральных директоров и государственных чиновников. Ауэрнхаймер (но не Спитлер) затем отправил список и информацию о том, как он был получен, в Gawker Media, которая опубликовала статью (но не список) под заголовком: «Худший случай нарушения безопасности Apple: 114 000 владельцев iPad обнажены».

В июне 2011 года дом Ауэрнхаймера был обыскан ФБР в связи с сбором адресов электронной почты, хотя в итоге его арестовали по обвинению в наркотиках. В ноябре 2012 года он был признан виновным в мошенничестве с личными данными и заговоре с целью несанкционированного доступа к компьютеру и позже приговорен к 41 месяцу федерального заключения и обязан заплатить 73 000 долларов в качестве возмещения ущерба.

Его дело привлекло внимание гражданского правозащитника Орина Керра, который присоединился к его юридической команде и обжаловал дело в Апелляционном суде Третьего округа. 11 апреля 2014 года (эти юридические процессы могут занять довольно много времени) они выдвинули аргумент:

Осуждение Ауэрнхаймера по пункту 1 должно быть отменено, потому что посещение общедоступного веб-сайта не является несанкционированным доступом по Закону о борьбе с компьютерным мошенничеством, 18 U.S.C. § 1030(a)(2)(C). AT&T решила не использовать пароли или какие-либо другие защитные меры для контроля доступа к адресам электронной почты своих клиентов. Не имеет значения, что AT&T субъективно желала, чтобы посторонние не наткнулись на данные или что Ауэрнхаймер гиперболически охарактеризовал доступ как «кражу». Компания настроила свои серверы таким образом, чтобы информация была доступна всем, тем самым разрешив общественности просматривать информацию. Доступ к адресам электронной почты через общедоступный веб-сайт AT&T был разрешен по CFAA и, следовательно, не был преступлением.

Хотя осуждение Ауэрнхаймера было отменено только из-за отсутствия юрисдикции, Апелляционный суд Третьего округа, казалось, был склонен к этому аргументу в сноске, которую они написали в своем решении:

Хотя нам не нужно решать, включало ли поведение Ауэрнхаймера такое нарушение, на суде не было представлено никаких доказательств того, что аккаунт-скрейпер когда-либо нарушал какой-либо парольный затвор или другой кодовый барьер. Аккаунт-скрейпер просто получил доступ к открытой для общественности части экрана входа в систему и собрал информацию, которую AT&T непреднамеренно опубликовала.

Хотя Ауэрнхаймер в итоге не был осужден по Закону о борьбе с компьютерным мошенничеством, его дом был обыскан ФБР, он потратил множество тысяч долларов на юридические издержки и провел три года в судах и тюрьмах.

Дело Field против Google: Авторское право и `robots.txt`

Блейк Филд, адвокат, подал иск против Google на том основании, что функция кэширования сайтов Google нарушает закон об авторском праве, показывая копию его книги после того, как он удалил её со своего веб-сайта. Закон об авторском праве позволяет создателю оригинального творческого произведения контролировать распространение этого произведения. Аргумент Филда заключался в том, что кэширование Google (после того как он удалил его со своего веб-сайта) лишило его возможности контролировать его распространение.

Кэш Google

Когда веб-скрейперы Google (также известные как Googlebots) сканируют веб-сайты, они создают копию сайта и размещают её в интернете. Доступ к этому кэшу можно получить, используя формат URL:

http://webcache.googleusercontent.com/search?q=cache:https://victor-komlev.ru

Если веб-сайт, который вы ищете или сканируете, недоступен, вы можете проверить там, существует ли пригодная для использования копия!

Тот факт, что Филд знал о функции кэширования Google и не предпринял никаких действий, не помог его делу. В конце концов, он мог предотвратить кэширование своего сайта Googlebots, просто добавив файл robots.txt с простыми директивами о том, какие страницы должны и не должны сканироваться.

Более важным было то, что суд нашёл, что положение о «Безопасной гавани» DMCA позволяло Google законно кэшировать и отображать сайты, такие как сайт Филда: «поставщик услуг не несёт ответственности за денежное возмещение… за нарушение авторских прав в результате промежуточного и временного хранения материала на системе или сети, контролируемой или эксплуатируемой поставщиком услуг».

Адаптация и рекомендации для российских разработчиков веб-скрейперов

В контексте российского законодательства и практик веб-скрейпинга, важно учитывать аналогичные юридические аспекты и этические нормы:

Использование robots.txt: Разработчики должны уважать файл robots.txt сайтов, который указывает, какие части сайта можно сканировать. Если вы не хотите, чтобы ваш контент кэшировался поисковыми системами, укажите это в robots.txt.
1. Это директива говорит всем ботам не сканировать сайт.
```
User-agent: *
Disallow: /
```
Уведомление о кэшировании: Если вы разрабатываете веб-сайт и хотите контролировать кэширование содержимого, используйте мета-теги HTML, например:
```
<meta name="robots" content="noarchive">
```
Этот тег указывает поисковым системам не сохранять кэшированную копию страницы.
Закон об авторском праве: Помните, что копирование и публичное воспроизведение чужих творческих работ без разрешения может нарушать закон об авторском праве. В России это регулируется частью четвертой Гражданского кодекса РФ (статьи 1225-1470).
Этический подход к скрейпингу: Даже если технически возможно извлечь данные, подумайте о последствиях. Если данные чувствительны (личные данные, коммерческая тайна и т.д.), лучше получить явное разрешение на их использование.
Ответственное раскрытие уязвимостей: Если вы находите уязвимости в процессе скрейпинга, этично сначала уведомить владельца сайта и дать ему время на исправление проблемы, прежде чем делиться информацией публично или с медиа.
Соблюдение DMCA и аналогичных международных норм: Хотя в России нет прямого аналога DMCA, полезно знать международные правовые рамки, если ваш продукт или услуга оперирует на международном уровне или обрабатывает данные иностранных пользователей.

Понимание и уважение к этим аспектам поможет разработчикам веб-скрейперов избежать юридических проблем и способствовать более ответственному и безопасному использованию данных из интернета.