Заказ закрыт
Обход защиты кью-rator/клаудфлэр... при автоматизированном парсинге сайтов в docker-контейнере

Бюджет: 40 000 руб
501.70 $ – 433.88 €
Доброго дня,
Исходные данные: веб-сервис (БД + docker-контейнеры на базе php). Одна из задач веб-сервиса – парсинг сайтов. 
Как вы знаете, в последнее время всё больше сайтов закрывают защитой от DDoS, заодно и затрудняя нам парсинг.

Задача: стабильно и с минимальными затратами парсить сайты, которые защищены. 
Т.е., учитывая существующую инфрастуктуру, создать docker-контейнер с автоматически управляемым браузером для 
обхода защиты вида qrator, cloudflare, akamai и других. 
*В идеале сделать интеграцию с существующим веб-сервисом (передать html для запрошенного Url между контейнерами в локальной сети  
или сделать что-то типа прокси)

Насколько я понимаю, для решения задачи браузер должен удовлетворять таким требованиям:
- работать в режиме с графической средой (headed) 
- управляться способом, который сложно отследить (не знаю, можно ли отследить playwritgh и похожие технологии, 
какой-то вариант точно должен быть)
- иметь возможность отправлять случайные/управляемые события мыши и клавиатуры
- взаимодействовать с целевым сайтом ровно так же, как и обычный браузер пользователя (так же проходить tls-handshake и иметь идентичный отпечаток)

Решением задачи МИНИМУМ считаем:
- [на нашей инфраструктуре] автоматическое получение html-кода для первого и нескольких следующих Url (полученных из внутренних ссылок) для 2-5 сайтов, 
которые дам в личном обсуждении. 
- [на нашей инфраструктуре] имитация движения мыши и ввод произвольного текста в окно поиска на одном из сайтов 
*Несколько следующих Url и ввод в поле мне нужны для примера кода автоматизации с используемой вами технологией
- Предоставить 2 варианта работы с GUI в контейнере: виртуальную графическую среду И вариант с графикой от хост-системы (когда можно видеть выполнение автоматизации браузером)
- письменные рекомендации по оптимальному алгоритму использования этого браузера с внешними прокси и возможности взаимодействия с headless-системами 
(если такое возможно, на что я надеюсь)

Решением задачи ПОЛНЫМ считаем:
- [на нашей инфраструктуре] пример взаимодействия нового docker-контейнера с headless-системами (получение html нескольких страниц 
в headless после первичного входа на тех же сайтах)
А если пример взаимодействия будет именно с php – вообще отлично)

*Упоминание "на нашей инфраструктуре" означает, что для приёма задачи я создаю на своей тестовой машине образы по вашим Dockerfile 
и с переданными вами исходниками (а не просто смотрю на ваш экран, где происходит "магия").

Хотел бы работать с непосредственным исполнителем, благодарю за внимание
Опубликован 05.08.2024 в 12:11
Заказ находится в архиве

Выберите способ верификации:

Обновите страницу после прохождения верификации.