Подключите нашего Telegram-бота для уведомлений о новых проектах

Заказ закрыт
Обход защиты кью-rator/клаудфлэр... при автоматизированном парсинге сайтов в docker-контейнере

o
Заказчик
Отзывы фрилансеров: + 0 - 0
Зарегистрирован на сайте 5 лет и 5 месяцев
Бюджет: 40 000 руб/заказ
438.28 $ — 397.05 €
Срок: До недели
Доброго дня,
Исходные данные: веб-сервис (БД + docker-контейнеры на базе php). Одна из задач веб-сервиса – парсинг сайтов. 
Как вы знаете, в последнее время всё больше сайтов закрывают защитой от DDoS, заодно и затрудняя нам парсинг.

Задача: стабильно и с минимальными затратами парсить сайты, которые защищены. 
Т.е., учитывая существующую инфрастуктуру, создать docker-контейнер с автоматически управляемым браузером для 
обхода защиты вида qrator, cloudflare, akamai и других. 
*В идеале сделать интеграцию с существующим веб-сервисом (передать html для запрошенного Url между контейнерами в локальной сети  
или сделать что-то типа прокси)

Насколько я понимаю, для решения задачи браузер должен удовлетворять таким требованиям:
- работать в режиме с графической средой (headed) 
- управляться способом, который сложно отследить (не знаю, можно ли отследить playwritgh и похожие технологии, 
какой-то вариант точно должен быть)
- иметь возможность отправлять случайные/управляемые события мыши и клавиатуры
- взаимодействовать с целевым сайтом ровно так же, как и обычный браузер пользователя (так же проходить tls-handshake и иметь идентичный отпечаток)

Решением задачи МИНИМУМ считаем:
- [на нашей инфраструктуре] автоматическое получение html-кода для первого и нескольких следующих Url (полученных из внутренних ссылок) для 2-5 сайтов, 
которые дам в личном обсуждении. 
- [на нашей инфраструктуре] имитация движения мыши и ввод произвольного текста в окно поиска на одном из сайтов 
*Несколько следующих Url и ввод в поле мне нужны для примера кода автоматизации с используемой вами технологией
- Предоставить 2 варианта работы с GUI в контейнере: виртуальную графическую среду И вариант с графикой от хост-системы (когда можно видеть выполнение автоматизации браузером)
- письменные рекомендации по оптимальному алгоритму использования этого браузера с внешними прокси и возможности взаимодействия с headless-системами 
(если такое возможно, на что я надеюсь)

Решением задачи ПОЛНЫМ считаем:
- [на нашей инфраструктуре] пример взаимодействия нового docker-контейнера с headless-системами (получение html нескольких страниц 
в headless после первичного входа на тех же сайтах)
А если пример взаимодействия будет именно с php – вообще отлично)

*Упоминание "на нашей инфраструктуре" означает, что для приёма задачи я создаю на своей тестовой машине образы по вашим Dockerfile 
и с переданными вами исходниками (а не просто смотрю на ваш экран, где происходит "магия").

Хотел бы работать с непосредственным исполнителем, благодарю за внимание
Разделы:
Заказ
Опубликован:
05.08.2024 | 12:11 [поднят: 05.08.2024 | 12:11]
Заказ находится в архиве

Теги: нужен программист, резюме программиста, требуется программист, резюме веб программиста

Наши партнеры
Сведения об ООО «Ваан» внесены в реестр аккредитованных организаций, осуществляющих деятельность в области информационных технологий. ООО «Ваан» осуществляет деятельность, связанную с использованием информационных технологий, по разработке компьютерного программного обеспечения, предоставлению доступа к программе для ЭВМ и является правообладателем программы для ЭВМ «Платформа FL.ru (версия 2.0)».