Требуется многопоточный граббер (парсер) ссылок с сайта

Откликнуться
d
Заказчик
Отзывы фрилансеров: + 2 - 0
Зарегистрирован на сайте 14 лет и 9 месяцев
Бюджет: по договоренности
Приобрету готовый или оплачу разработку, многопоточного граббера (парсера) внутренних ссылок многостраничных сайтов.
ТЗ:
Входные данные: 
1.урл с которого начинается парсинг ссылок.
2.Кол-во потоков парсинга
Выходные данные: таблица в БД с уникальными внутренними ссылками заданного сайта, или текстовый файл со списком ссылок.

Принцип работы:
Скрипт собирает все внутренние ссылки с входного урл, и добавляет их в очередь и в список найденных ссылок. Очередь и список найденных ссылок храним в таблицах БД.
Далее идет обход очереди и добавление найденных уникальных ссылок в очередь и в найденные, пока очередь не закончится или скрипт не будет остановлен.
Если на момент запуска скрипта в БД есть очередь ссылок, то стартовый урл игнорируется, просто продолжается обход очереди.

Задача в принципе простая. ContentDownloader который у меня есть, в своем сканере сайтов эту задачу решает большим количеством потоков на ура. Одно но, мне нужно собирать миллионы ссылок, а с этим он справляется уже неважно, результаты парсинга хранятся в оперативной памяти, которая имеет свойство заканчиваться, плюс просто начинает хорошенько на таком количестве уже подтормаживать.

То есть мне нужен скрипт который работает аналогично сканеру сайтов ContentDownloader'а но без его недостатков. Скрипт должен хорошо парсить 10-20млн. ссылок и больше, без потери скорости и не испытывая ограничений по объему памяти. Для этого нужна БД. 
По языкам программирования и используемым БД на усмотрение исполнителя, что будет эффективнее.

Жду ваших предложений.
Разделы:
Опубликован:
08.07.2017 | 04:28 [последние изменения: 08.07.2017 | 04:32]
Откликнуться

Выберите способ верификации:

Обновите страницу после прохождения верификации.

Посмотреть другие заказы Разместить заказ

Теги: написать программу, создать программу, разработать программу, разработчики программ, прикладной программист

Наши партнеры
Сведения об ООО «Ваан» внесены в реестр аккредитованных организаций, осуществляющих деятельность в области информационных технологий. ООО «Ваан» осуществляет деятельность, связанную с использованием информационных технологий, по разработке компьютерного программного обеспечения, предоставлению доступа к программе для ЭВМ и является правообладателем программы для ЭВМ «Платформа FL.ru (версия 2.0)».