Система для сбора тайтлов для 4 млн веб страниц, node.js

Бюджет: по договоренности
Заказчик выбрал исполнителя:
Сергей Большаков  
Есть база из около 4 миллионов URL. Нужно на node.js, сделать систему, позволяющую собирать тайтлы (html тэг title) для имеющихся адресов, по подобию этого проекта:
letsnode.com/example-of-w...
Полный исход проекта там есть, по сути, нужно его модифицировать, чтобы он не просто делал http request, а скачивал страничку,  выбирал оттуда title, и сохранял в БД.
Важно собирать информацию именно асинхронно, потому что операцию надо будет время от времени повторять и она должна занимать минимальное время. Поэтому рекомендуется взять именно готовый проект и его модифицировать. Если будете писать с нуля, то нужно это учесть.

Нужно все тайтлы привести к одной кодировке (юникодной), независимо от кодировки сайта.
Также нужно учесть редиректы – и брать тайтл с первого редиректа, дальше по цепочке редиректов идти не надо. 

Тайтлы должны собираться в базу mysql, и к этой базе должен быть открыт доступ из phpmyadmin.

База должна быть такая:
исходный адрес (из базы)
конечный адрес (если был редирект – то это адрес редиректа, если нет – то равен исходному)
тайтл
код ответа веб-сервера (если редирект – то код ответа сервера, на который идет редирект, если ответа нет, то null)

Всё это должно работать на Windows.
Как всё должно работать:
1. Я завожу VPS сервер на Windows
2. Вы туда устанавливаете node js, phpmyadmin
3. Пишете код, проверяете тестовой базой в 1 тыс. адресов, сообщаете что все ок и пишете мне, в какое место положить файл с реальной базой и как запустить процесс
4. Я заливаю на сервер реальную базу, запускаю процесс, как он завершается – я проверяю с помощью phpmyadmin, что все ок и расплачиваюсь. 


Пишите цены и сроки. 
К срокам прошу относиться серьёзно и указывать сроки в календарных днях.
Опубликован 10.12.2014 в 18:08

Выберите способ верификации:

Обновите страницу после прохождения верификации.