Ко всем статьям

Мониторинг мобильных прокси: метрики, алерты и «здоровье» пула

2026-02-04
Мониторинг мобильных прокси: метрики, алерты и «здоровье» пула

Практический гайд: какие метрики собирать для 4G/5G прокси, как считать health‑скор, отбраковывать плохие IP/соты и делать отчёты клиентам.

Зачем мониторить мобильные прокси

Мобильные 4G/5G прокси дают операторский «живой» IP и часто проходят антибот‑фильтры лучше, чем датацентровые адреса. Но качество у мобильной сети нестабильное: в течение дня меняются нагрузка, маршруты, уровень сигнала, иногда включаются ограничения у оператора. Поэтому без контроля пул ведёт себя непредсказуемо: то растёт задержка, то появляются таймауты, то резко увеличивается доля CAPTCHA.

Задача мониторинга — превратить нестабильность в управляемый сервис: измерять ключевые показатели, автоматически выводить из пула проблемные узлы и прозрачно объяснять клиенту, что происходит.

Ключевые метрики качества (минимальный набор)

  • Latency — задержка запроса (ms). Смотрите p50/p95/p99, а не только среднее.
  • Jitter — разброс задержки во времени. Для мобильной сети это частая причина «случайных» провалов.
  • Drop rate — доля неуспешных попыток (таймауты, разрывы, TCP reset).
  • Success rate — доля успешных бизнес‑операций (страница/JSON получены корректно).
  • Captcha rate — доля запросов/сессий, где сработала CAPTCHA или проверка.
  • Uptime прокси — доступность сервиса в рамках SLO (порт отвечает, health‑check проходит).
  • Контроль ротации IP — как часто меняется IP, нет ли «залипания».

Как измерять latency и jitter в 4G/5G правильно

Измеряйте «с той же точки», где работает прокси (модем/сервер), и проверяйте несколько типовых целей. ICMP (ping) может быть закрыт, поэтому используйте:

  • TCP connect time или HTTP HEAD на лёгкий endpoint;
  • реальный HTTP‑сценарий: GET страницы/endpoint с нормальными заголовками и TLS.

Jitter удобно считать в окне 5–10 минут как вариативность (например, p95-p50 или стандартное отклонение). Если растёт p95 при стабильном p50 — проблема в хвостах (перегруз/нестабильность). Если растут оба — деградация общая (сигнал/маршрут/throttling).

Drop rate: что считать “падением”

Считайте то, что реально ломает работу:

  • таймауты DNS/TCP/TLS/HTTP;
  • 502/503/504 на уровне прокси‑шлюза или upstream;
  • обрывы во время передачи (incomplete read);
  • вынужденные ретраи, которые резко выросли.

Важно отличать ошибки сети от ошибок целевого сайта. Полезно иметь «контрольный» выход в интернет без прокси и сравнивать: если и там плохо — проблема не в пуле.

Captcha rate и success rate: метрики “антибот‑реальности”

Эти показатели лучше всего отражают качество мобильных прокси для парсинга, логина и Ads. Считайте их по сценариям:

  • Парсинг: получили нужный контент без блок‑страницы и проверок.
  • Логин: вход без неожиданной верификации.
  • Поиск/карты/API: получили корректный ответ без soft‑блоков.

Captcha rate учитывайте не только по явной CAPTCHA. Добавляйте признаки: характерные редиректы, шаблонные страницы “Access denied”, падение размера ответа, ключевые слова “verify”, “unusual traffic”.

Health‑check пула: как свести метрики к одному скору

Для автоматизации удобнее один показатель — health score (0–100 или 0–1). Простой рецепт:

  • нормализуйте метрики в 0..1 (лучше = ближе к 1);
  • задайте веса (пример: success 0.35, captcha 0.25, drop 0.2, p95 latency 0.15, jitter 0.05);
  • введите “потолки” для критических условий (если drop > 20% — score не выше 0.2).

Авто‑отбраковка: состояния, карантин и второй шанс

Мобильная сеть шумная, поэтому нельзя банить узел навсегда по одному сбою. Используйте состояния:

  • Healthy — выдаём клиентам.
  • Degraded — качество просело; ограничиваем нагрузку.
  • Quarantine — временно выводим из пула на 15–60 минут и гоняем усиленные тесты.
  • Blacklisted — долгий бан (токсичный IP/стабильные капчи/403).

Пример триггеров: success < 85% (10 мин), captcha > 20% (30 мин), p95 > 2500 ms + вырос jitter, drop > 10% при «зелёном» контроле. После карантина — вернуть в Degraded и только потом в Healthy при нескольких успешных проверках.

Ротация IP: как ловить “залипание”

  • IP age — сколько живёт текущий IP.
  • Rotation success — меняется ли IP после команды/триггера.
  • Повторы IP — как часто IP возвращается в пределах суток.

«Залипание» бывает нормой для отдельных регионов, но также может указывать на зависшую сессию, неудачную перерегистрацию модема или маленький пул адресов у соты.

DNS, TLS и TTFB: полезная декомпозиция задержки

Чтобы быстрее понимать причины “медленно”, разложите latency на компоненты:

  • DNS lookup time;
  • TCP connect time;
  • TLS handshake time;
  • TTFB (time to first byte).

Это помогает отделить проблемы оператора (DNS/маршрут) от проблем цели (сервер медленно отвечает).

Разрез “IP / SIM / сота”: где именно болит

Узел — это не только IP. Храните атрибуты: модем/порт, SIM/eSIM, оператор/тариф, регион и, по возможности, Cell ID. Тогда вы быстро увидите, что деградация привязана к конкретной группе (например, “Operator A / Region X”).

Чёрный список IP: аккуратно и с TTL

  • делайте blacklist по целям (домены/категории), а не один общий;
  • добавляйте IP только после повторяемых симптомов;
  • ставьте TTL 24–72 часа и делайте “проверку на возвращение”;
  • не путайте бан с плохой связью: медленный узел — это карантин, а не blacklist.

Алерты без шума

  • алерт по окнам и трендам, а не по одному таймауту;
  • симптомы важнее причин: success/captcha лучше, чем “CPU модема”;
  • warning vs critical;
  • защита от флаппинга: for: 5m, cooldown.

Отдельно настройте алерты на “массовые” события: если деградирует сразу 30% узлов — это почти всегда оператор/магистраль/шлюз.

Отчёты для клиентов: что показывать

  • Коротко: uptime, средний success rate, captcha rate, главные проблемы периода.
  • Технически: p95 latency, drop rate, распределение health score, доля quarantined, статистика ротаций.
  • Инциденты: список событий с временем, длительностью, причиной и действиями.

Стартовые пороги (точка начала)

  • p95 latency: warning 2000 ms, critical 3500 ms;
  • jitter: warning 400 ms, critical 800 ms (окно 10 мин);
  • drop rate: warning 5%, critical 12%;
  • captcha rate: warning 10%, critical 25%;
  • success rate: warning < 92%, critical < 85%.

Через неделю данных посмотрите распределения и уточните пороги под ваши реальные цели и кейсы.

Итог

Мониторинг мобильных прокси — это связка метрик, автоматической отбраковки и понятной отчётности. Начните с latency/jitter/drop/success/captcha, введите health score и карантин, контролируйте ротацию — и пул станет предсказуемым даже в «шумной» 4G/5G среде.