Зачем мониторить мобильные прокси
Мобильные 4G/5G прокси дают операторский «живой» IP и часто проходят антибот‑фильтры лучше, чем датацентровые адреса. Но качество у мобильной сети нестабильное: в течение дня меняются нагрузка, маршруты, уровень сигнала, иногда включаются ограничения у оператора. Поэтому без контроля пул ведёт себя непредсказуемо: то растёт задержка, то появляются таймауты, то резко увеличивается доля CAPTCHA.
Задача мониторинга — превратить нестабильность в управляемый сервис: измерять ключевые показатели, автоматически выводить из пула проблемные узлы и прозрачно объяснять клиенту, что происходит.
Ключевые метрики качества (минимальный набор)
- Latency — задержка запроса (ms). Смотрите p50/p95/p99, а не только среднее.
- Jitter — разброс задержки во времени. Для мобильной сети это частая причина «случайных» провалов.
- Drop rate — доля неуспешных попыток (таймауты, разрывы, TCP reset).
- Success rate — доля успешных бизнес‑операций (страница/JSON получены корректно).
- Captcha rate — доля запросов/сессий, где сработала CAPTCHA или проверка.
- Uptime прокси — доступность сервиса в рамках SLO (порт отвечает, health‑check проходит).
- Контроль ротации IP — как часто меняется IP, нет ли «залипания».
Как измерять latency и jitter в 4G/5G правильно
Измеряйте «с той же точки», где работает прокси (модем/сервер), и проверяйте несколько типовых целей. ICMP (ping) может быть закрыт, поэтому используйте:
- TCP connect time или HTTP HEAD на лёгкий endpoint;
- реальный HTTP‑сценарий: GET страницы/endpoint с нормальными заголовками и TLS.
Jitter удобно считать в окне 5–10 минут как вариативность (например, p95-p50 или стандартное отклонение). Если растёт p95 при стабильном p50 — проблема в хвостах (перегруз/нестабильность). Если растут оба — деградация общая (сигнал/маршрут/throttling).
Drop rate: что считать “падением”
Считайте то, что реально ломает работу:
- таймауты DNS/TCP/TLS/HTTP;
- 502/503/504 на уровне прокси‑шлюза или upstream;
- обрывы во время передачи (incomplete read);
- вынужденные ретраи, которые резко выросли.
Важно отличать ошибки сети от ошибок целевого сайта. Полезно иметь «контрольный» выход в интернет без прокси и сравнивать: если и там плохо — проблема не в пуле.
Captcha rate и success rate: метрики “антибот‑реальности”
Эти показатели лучше всего отражают качество мобильных прокси для парсинга, логина и Ads. Считайте их по сценариям:
- Парсинг: получили нужный контент без блок‑страницы и проверок.
- Логин: вход без неожиданной верификации.
- Поиск/карты/API: получили корректный ответ без soft‑блоков.
Captcha rate учитывайте не только по явной CAPTCHA. Добавляйте признаки: характерные редиректы, шаблонные страницы “Access denied”, падение размера ответа, ключевые слова “verify”, “unusual traffic”.
Health‑check пула: как свести метрики к одному скору
Для автоматизации удобнее один показатель — health score (0–100 или 0–1). Простой рецепт:
- нормализуйте метрики в 0..1 (лучше = ближе к 1);
- задайте веса (пример: success 0.35, captcha 0.25, drop 0.2, p95 latency 0.15, jitter 0.05);
- введите “потолки” для критических условий (если drop > 20% — score не выше 0.2).
Авто‑отбраковка: состояния, карантин и второй шанс
Мобильная сеть шумная, поэтому нельзя банить узел навсегда по одному сбою. Используйте состояния:
- Healthy — выдаём клиентам.
- Degraded — качество просело; ограничиваем нагрузку.
- Quarantine — временно выводим из пула на 15–60 минут и гоняем усиленные тесты.
- Blacklisted — долгий бан (токсичный IP/стабильные капчи/403).
Пример триггеров: success < 85% (10 мин), captcha > 20% (30 мин), p95 > 2500 ms + вырос jitter, drop > 10% при «зелёном» контроле. После карантина — вернуть в Degraded и только потом в Healthy при нескольких успешных проверках.
Ротация IP: как ловить “залипание”
- IP age — сколько живёт текущий IP.
- Rotation success — меняется ли IP после команды/триггера.
- Повторы IP — как часто IP возвращается в пределах суток.
«Залипание» бывает нормой для отдельных регионов, но также может указывать на зависшую сессию, неудачную перерегистрацию модема или маленький пул адресов у соты.
DNS, TLS и TTFB: полезная декомпозиция задержки
Чтобы быстрее понимать причины “медленно”, разложите latency на компоненты:
- DNS lookup time;
- TCP connect time;
- TLS handshake time;
- TTFB (time to first byte).
Это помогает отделить проблемы оператора (DNS/маршрут) от проблем цели (сервер медленно отвечает).
Разрез “IP / SIM / сота”: где именно болит
Узел — это не только IP. Храните атрибуты: модем/порт, SIM/eSIM, оператор/тариф, регион и, по возможности, Cell ID. Тогда вы быстро увидите, что деградация привязана к конкретной группе (например, “Operator A / Region X”).
Чёрный список IP: аккуратно и с TTL
- делайте blacklist по целям (домены/категории), а не один общий;
- добавляйте IP только после повторяемых симптомов;
- ставьте TTL 24–72 часа и делайте “проверку на возвращение”;
- не путайте бан с плохой связью: медленный узел — это карантин, а не blacklist.
Алерты без шума
- алерт по окнам и трендам, а не по одному таймауту;
- симптомы важнее причин: success/captcha лучше, чем “CPU модема”;
- warning vs critical;
- защита от флаппинга: for: 5m, cooldown.
Отдельно настройте алерты на “массовые” события: если деградирует сразу 30% узлов — это почти всегда оператор/магистраль/шлюз.
Отчёты для клиентов: что показывать
- Коротко: uptime, средний success rate, captcha rate, главные проблемы периода.
- Технически: p95 latency, drop rate, распределение health score, доля quarantined, статистика ротаций.
- Инциденты: список событий с временем, длительностью, причиной и действиями.
Стартовые пороги (точка начала)
- p95 latency: warning 2000 ms, critical 3500 ms;
- jitter: warning 400 ms, critical 800 ms (окно 10 мин);
- drop rate: warning 5%, critical 12%;
- captcha rate: warning 10%, critical 25%;
- success rate: warning < 92%, critical < 85%.
Через неделю данных посмотрите распределения и уточните пороги под ваши реальные цели и кейсы.
Итог
Мониторинг мобильных прокси — это связка метрик, автоматической отбраковки и понятной отчётности. Начните с latency/jitter/drop/success/captcha, введите health score и карантин, контролируйте ротацию — и пул станет предсказуемым даже в «шумной» 4G/5G среде.