Мониторинг мобильных прокси: метрики, алерты и «здоровье» пула

2026-02-04

Практический гайд: какие метрики собирать для 4G/5G прокси, как считать health‑скор, отбраковывать плохие IP/соты и делать отчёты клиентам.

Зачем мониторить мобильные прокси

Мобильные 4G/5G прокси дают операторский «живой» IP и часто проходят антибот‑фильтры лучше, чем датацентровые адреса. Но качество у мобильной сети нестабильное: в течение дня меняются нагрузка, маршруты, уровень сигнала, иногда включаются ограничения у оператора. Поэтому без контроля пул ведёт себя непредсказуемо: то растёт задержка, то появляются таймауты, то резко увеличивается доля CAPTCHA.

Задача мониторинга — превратить нестабильность в управляемый сервис: измерять ключевые показатели, автоматически выводить из пула проблемные узлы и прозрачно объяснять клиенту, что происходит.

Ключевые метрики качества (минимальный набор)

Latency — задержка запроса (ms). Смотрите p50/p95/p99, а не только среднее.
Jitter — разброс задержки во времени. Для мобильной сети это частая причина «случайных» провалов.
Drop rate — доля неуспешных попыток (таймауты, разрывы, TCP reset).
Success rate — доля успешных бизнес‑операций (страница/JSON получены корректно).
Captcha rate — доля запросов/сессий, где сработала CAPTCHA или проверка.
Uptime прокси — доступность сервиса в рамках SLO (порт отвечает, health‑check проходит).
Контроль ротации IP — как часто меняется IP, нет ли «залипания».

Как измерять latency и jitter в 4G/5G правильно

Измеряйте «с той же точки», где работает прокси (модем/сервер), и проверяйте несколько типовых целей. ICMP (ping) может быть закрыт, поэтому используйте:

TCP connect time или HTTP HEAD на лёгкий endpoint;
реальный HTTP‑сценарий: GET страницы/endpoint с нормальными заголовками и TLS.

Jitter удобно считать в окне 5–10 минут как вариативность (например, p95-p50 или стандартное отклонение). Если растёт p95 при стабильном p50 — проблема в хвостах (перегруз/нестабильность). Если растут оба — деградация общая (сигнал/маршрут/throttling).

Drop rate: что считать “падением”

Считайте то, что реально ломает работу:

таймауты DNS/TCP/TLS/HTTP;
502/503/504 на уровне прокси‑шлюза или upstream;
обрывы во время передачи (incomplete read);
вынужденные ретраи, которые резко выросли.

Важно отличать ошибки сети от ошибок целевого сайта. Полезно иметь «контрольный» выход в интернет без прокси и сравнивать: если и там плохо — проблема не в пуле.

Captcha rate и success rate: метрики “антибот‑реальности”

Эти показатели лучше всего отражают качество мобильных прокси для парсинга, логина и Ads. Считайте их по сценариям:

Парсинг: получили нужный контент без блок‑страницы и проверок.
Логин: вход без неожиданной верификации.
Поиск/карты/API: получили корректный ответ без soft‑блоков.

Captcha rate учитывайте не только по явной CAPTCHA. Добавляйте признаки: характерные редиректы, шаблонные страницы “Access denied”, падение размера ответа, ключевые слова “verify”, “unusual traffic”.

Health‑check пула: как свести метрики к одному скору

Для автоматизации удобнее один показатель — health score (0–100 или 0–1). Простой рецепт:

нормализуйте метрики в 0..1 (лучше = ближе к 1);
задайте веса (пример: success 0.35, captcha 0.25, drop 0.2, p95 latency 0.15, jitter 0.05);
введите “потолки” для критических условий (если drop > 20% — score не выше 0.2).

Авто‑отбраковка: состояния, карантин и второй шанс

Мобильная сеть шумная, поэтому нельзя банить узел навсегда по одному сбою. Используйте состояния:

Healthy — выдаём клиентам.
Degraded — качество просело; ограничиваем нагрузку.
Quarantine — временно выводим из пула на 15–60 минут и гоняем усиленные тесты.
Blacklisted — долгий бан (токсичный IP/стабильные капчи/403).

Пример триггеров: success < 85% (10 мин), captcha > 20% (30 мин), p95 > 2500 ms + вырос jitter, drop > 10% при «зелёном» контроле. После карантина — вернуть в Degraded и только потом в Healthy при нескольких успешных проверках.

Ротация IP: как ловить “залипание”

IP age — сколько живёт текущий IP.
Rotation success — меняется ли IP после команды/триггера.
Повторы IP — как часто IP возвращается в пределах суток.

«Залипание» бывает нормой для отдельных регионов, но также может указывать на зависшую сессию, неудачную перерегистрацию модема или маленький пул адресов у соты.

DNS, TLS и TTFB: полезная декомпозиция задержки

Чтобы быстрее понимать причины “медленно”, разложите latency на компоненты:

DNS lookup time;
TCP connect time;
TLS handshake time;
TTFB (time to first byte).

Это помогает отделить проблемы оператора (DNS/маршрут) от проблем цели (сервер медленно отвечает).

Разрез “IP / SIM / сота”: где именно болит

Узел — это не только IP. Храните атрибуты: модем/порт, SIM/eSIM, оператор/тариф, регион и, по возможности, Cell ID. Тогда вы быстро увидите, что деградация привязана к конкретной группе (например, “Operator A / Region X”).

Чёрный список IP: аккуратно и с TTL

делайте blacklist по целям (домены/категории), а не один общий;
добавляйте IP только после повторяемых симптомов;
ставьте TTL 24–72 часа и делайте “проверку на возвращение”;
не путайте бан с плохой связью: медленный узел — это карантин, а не blacklist.

Алерты без шума

алерт по окнам и трендам, а не по одному таймауту;
симптомы важнее причин: success/captcha лучше, чем “CPU модема”;
warning vs critical;
защита от флаппинга: for: 5m, cooldown.

Отдельно настройте алерты на “массовые” события: если деградирует сразу 30% узлов — это почти всегда оператор/магистраль/шлюз.

Отчёты для клиентов: что показывать

Коротко: uptime, средний success rate, captcha rate, главные проблемы периода.
Технически: p95 latency, drop rate, распределение health score, доля quarantined, статистика ротаций.
Инциденты: список событий с временем, длительностью, причиной и действиями.

Стартовые пороги (точка начала)

p95 latency: warning 2000 ms, critical 3500 ms;
jitter: warning 400 ms, critical 800 ms (окно 10 мин);
drop rate: warning 5%, critical 12%;
captcha rate: warning 10%, critical 25%;
success rate: warning < 92%, critical < 85%.

Через неделю данных посмотрите распределения и уточните пороги под ваши реальные цели и кейсы.

Итог

Мониторинг мобильных прокси — это связка метрик, автоматической отбраковки и понятной отчётности. Начните с latency/jitter/drop/success/captcha, введите health score и карантин, контролируйте ротацию — и пул станет предсказуемым даже в «шумной» 4G/5G среде.