Ко всем статьям

Право на парсинг в 2026: границы легального сбора публичных данных

2026-02-12
Право на парсинг в 2026: границы легального сбора публичных данных

Коротко о том, где проходит граница между публичными данными и легальным парсингом в 2026: ToS, robots.txt, авторское право и privacy.

Что изменилось к 2026 и почему тема «право на парсинг» стала острее

Парсинг (web scraping) давно стал нормальным инструментом бизнеса, аналитики, журналистики данных и QA‑проверок. В 2026 конфликт всё тот же: данные выглядят публичными, но площадка пытается контролировать доступ, скорость выгрузки и повторное использование.

При этом правила стали «многослойными». Недостаточно сказать «мы берём то, что видно в браузере». Нужно одновременно учитывать: (1) нормы про несанкционированный доступ, (2) договорные ограничения (Terms/ToS), (3) авторское право, (4) права на базы данных (особенно в ЕС), (5) режим персональных данных (GDPR/UK GDPR и аналоги), (6) конкуренцию и недобросовестные практики, (7) технические сигналы вроде robots.txt.

Публичные данные ≠ «свободные для любого использования»

Публичными обычно считают данные, доступные без логина и пароля: каталоги, цены, объявления, новости, открытые профили. Но «публичность» описывает только способ доступа, а не право копировать и перерабатывать данные как угодно. Даже если страницу может открыть любой, это не означает, что вы можете:

  • массово копировать контент и публиковать его у себя;
  • обходить технические ограничения (антибот, IP‑блокировки, paywall, токены);
  • собирать персональные данные и дальше их профилировать или перепродавать;
  • нарушать условия договора, если вы их приняли (как зарегистрированный пользователь);
  • перегружать сервер и создавать эффект DoS.

Практичнее мыслить так: «есть ли законный доступ» + «есть ли право обрабатывать/копировать именно эти данные» + «действую ли я пропорционально и добросовестно».

Три практические категории парсинга

  • Низкий риск: сбор неперсональных фактов (цены, наличие, характеристики), без обхода защиты, с ограничением частоты запросов, без копирования творческого контента.
  • Средний риск: смешанные данные, где могут встречаться персональные элементы (имена, телефоны, аватары), или сбор для конкурентной агрегации. Здесь критичны privacy, ToS, право на базу данных, конкуренция.
  • Высокий риск: парсинг «под логином», обходы антибота, подмена аккаунтов, выгрузка больших массивов персональных данных, зеркалирование сайта, перепродажа профилей/контактов.

1) Несанкционированный доступ и «антихакерские» нормы

Почти везде есть нормы о несанкционированном доступе к компьютерным системам. В США часто обсуждают CFAA. Практический вывод из судов последних лет: если данные доступны без аутентификации, риск криминализации «самого чтения» ниже, чем когда вы лезете «за пароль». Но риск возвращается, если вы:

  • обходите технические барьеры (средства против блокировок, которые трактуются как обход);
  • используете чужие/скомпрометированные учетные данные;
  • делаете действия, похожие на атаку: подбор токенов, агрессивный трафик, сканирование.

Упрощённое правило 2026: не превращайте парсинг в «взлом». Чем больше автоматизации, тем важнее показать, что вы действуете как обычный посетитель, только быстрее и аккуратнее, а не как атакующий.

2) Terms of Service: когда запрет на scraping становится иском

ToS — это договор. Если вы приняли условия (аккаунт, галочка, использование API), запрет на scraping может стать основанием для требований о нарушении договора.

Нюанс: для logged-off парсинга иногда сложнее доказать, что договор вообще заключён. Но как только вы работаете «под логином» или через аккаунты, ToS становятся существенно опаснее. Практически это означает:

  • Не парсить то, что доступно только после входа, если ToS это запрещают.
  • Не использовать «фермы аккаунтов» для сбора, если это против правил платформы.
  • Рассмотреть официальный API или партнерский доступ, если он реалистичен.

3) Авторское право: факты можно, форму — осторожно

Факты (цена, дата, модель) обычно не охраняются авторским правом. Но охраняется форма: тексты описаний, фотографии, обзоры, подборки. Ошибка — думать, что «раз публично, значит можно копировать».

  • Собирайте и отображайте фактические поля, а не целые описания.
  • Фотографии — частая зона претензий. Если нужны — решайте через права/лицензию или собственный контент.
  • Для аналитики лучше преобразовывать данные: нормализация, агрегация, статистика вместо «копировать и показывать».

4) ЕС: право на базы данных и «извлечение существенной части»

В ЕС действует sui generis право производителя базы данных. Риск чаще в масштабе: системное извлечение существенной части базы (или многократное извлечение несущестенных частей, которое суммарно даёт «существенно») может стать основанием претензий.

  • Конкурентная агрегация «почти всего каталога» — высокий риск.
  • Точечный мониторинг цен по ограниченной выборке — заметно безопаснее.
  • Имеет значение инвестиция платформы в создание и поддержку базы.

5) ЕС: Text & Data Mining и «opt-out» как новый сигнал

Для text and data mining в ЕС есть специальные исключения в авторском праве. Для коммерческих сценариев важна идея: при законном доступе TDM может быть допустим, но правообладатель может явно зарезервировать использование для TDM (opt-out) «надлежащим образом», включая машиночитаемые способы.

Из‑за этого robots.txt, метаданные и другие сигналы стали восприниматься серьёзнее. Robots.txt не равен «замку на двери», но может быть доказательством предупреждения и резервирования прав.

6) Robots.txt в 2026: технический стандарт, но юридическая роль растёт

Robots.txt — часть Robots Exclusion Protocol (RFC 9309). В самом стандарте подчёркнуто: robots.txt не является авторизацией, это политика/запрос к роботам. Но в спорах он может работать:

  • как показатель игнорирования явно выраженной воли владельца ресурса;
  • как маркер добросовестности (вы уважали disallow, снижали нагрузку);
  • как элемент TDM opt-out в европейских кейсах.

Практика: коммерческий парсер должен читать robots.txt, уважать sitemap и правила user-agent, а также фиксировать это в логах.

7) Персональные данные: «публично» всё равно может означать «под GDPR»

Если вы собираете данные, которые идентифицируют человека (ФИО, телефон, email, фото, ник, ID профиля), вы почти наверняка попадаете под GDPR/UK GDPR или локальные аналоги. Здесь граница легальности — не в слове «парсинг», а в слове «обработка». Нужны:

  • правовое основание (часто — legitimate interests с тестом баланса);
  • минимизация (берите только необходимое);
  • прозрачность (как вы информируете субъектов данных);
  • безопасность (контроль доступа, шифрование, журналы);
  • сроки хранения и удаление;
  • процедуры для прав субъектов (доступ, удаление, возражение).

Поэтому для большинства продуктов безопаснее работать с неперсональными публичными данными, а персональные — трогать только при чётко обоснованной цели и строгой минимизации.

8) Недобросовестная конкуренция и «перепаковка» чужих инвестиций

Даже если вы не упираетесь в ToS и privacy, остаётся конкуренция. Если ваш сервис монетизирует чужой каталог без разрешения, возможны аргументы про паразитирование на инвестициях и введение пользователей в заблуждение (когда выглядит, будто данные «ваши»).

  • Риск выше, если ценность продукта — только интерфейс поверх чужой базы.
  • Риск выше, если обновления настолько частые, что вы «замещаете» площадку.
  • Риск выше, если вы скрываете источник и брендинг.

9) «Рецепт» более легального парсинга: чеклист 2026

  • Формализуйте цель и список необходимых полей.
  • Ограничьте объём: выборка вместо «всё», умеренная частота, кеширование.
  • Не обходите защиту: никакого обхода логина, токенов, paywall, «взлома» антибота.
  • Уважайте robots.txt и правила нагрузки.
  • Не копируйте творчество: тексты/фото — только с правами или заменяйте фактами.
  • Privacy by design: фильтруйте персональные поля; если нельзя — документируйте основание и минимизацию.
  • Логи и аудит: что парсилось, по каким правилам, какая скорость.
  • Канал для жалоб и быстрый takedown.

10) Что делать, если сайт прямо «запрещает парсинг»

  • перейти на API (официальный или партнерский);
  • сильно сократить объём и собирать только факты;
  • получить разрешение/лицензию или договор на доступ к данным;
  • усилить продукт собственными данными и аналитикой, чтобы не зависеть от полного копирования.

Где проходит граница «lawful access»

Во многих режимах ключевым является lawful access — законный доступ. Страница может быть видимой, но вы всё равно выходите за рамки, если обходите гео‑ограничения, используете технические ошибки для доступа к «закрытому», или массово эксплуатируете одноразовые токены/подписанные URL.

Юрисдикции: один парсер — разные правила

Парсинг часто международный, поэтому правила накладываются. Персональные данные могут подтягивать требования по месту проживания субъекта и по месту деятельности контролера. А договорные и конкурентные споры — по выбранной юрисдикции платформы или по ToS (если применимо). Для коммерческого проекта полезна карта рисков: где серверы, чьи пользователи, какие поля собираются.

DSA и доступ к данным для исследователей: сигнал рынку

Digital Services Act усилил рамки прозрачности и создал механизмы доступа к данным для проверенных исследователей в контексте системных рисков. Это общий тренд: рынок движется к управляемому доступу (процедуры, API), а не к хаотичному scraping. Если продукт критично зависит от данных платформ — подумайте, как перейти к официальному каналу.

Документы, которые реально помогают при претензии

  • политика сбора данных (что, зачем, откуда);
  • описание технических ограничений (rate limiting, кеш, robots.txt);
  • оценка персональных данных и фильтров;
  • процедура реагирования (takedown, блокировки источников).

Вывод

В 2026 «легальный парсинг» — это комбинация: законный доступ, уважение технических правил, минимизация данных, отказ от обходов защиты, осторожность с персональными данными и масштабом извлечения базы. Чем лучше вы можете объяснить процесс как пропорциональный и безопасный, тем сильнее позиция, даже если данные публичные.