Есть база из около 4 миллионов URL. Нужно на node.js, сделать систему, позволяющую собирать тайтлы (html тэг title) для имеющихся адресов, по подобию этого проекта:
Полный исход проекта там есть, по сути, нужно его модифицировать, чтобы он не просто делал http request, а скачивал страничку, выбирал оттуда title, и сохранял в БД.
Важно собирать информацию именно асинхронно, потому что операцию надо будет время от времени повторять и она должна занимать минимальное время. Поэтому рекомендуется взять именно готовый проект и его модифицировать. Если будете писать с нуля, то нужно это учесть.
Нужно все тайтлы привести к одной кодировке (юникодной), независимо от кодировки сайта.
Также нужно учесть редиректы и брать тайтл с первого редиректа, дальше по цепочке редиректов идти не надо.
Тайтлы должны собираться в базу mysql, и к этой базе должен быть открыт доступ из phpmyadmin.
База должна быть такая:
исходный адрес (из базы)
конечный адрес (если был редирект то это адрес редиректа, если нет то равен исходному)
тайтл
код ответа веб-сервера (если редирект то код ответа сервера, на который идет редирект, если ответа нет, то null)
Всё это должно работать на Windows.
Как всё должно работать:
1. Я завожу VPS сервер на Windows
2. Вы туда устанавливаете node js, phpmyadmin
3. Пишете код, проверяете тестовой базой в 1 тыс. адресов, сообщаете что все ок и пишете мне, в какое место положить файл с реальной базой и как запустить процесс
4. Я заливаю на сервер реальную базу, запускаю процесс, как он завершается я проверяю с помощью phpmyadmin, что все ок и расплачиваюсь.
Пишите цены и сроки.
К срокам прошу относиться серьёзно и указывать сроки в календарных днях.