Заказчик
Отзывы фрилансеров:
+ 2
- 0
Зарегистрирован на сайте 14 лет и 9 месяцев
Бюджет:
по договоренности
Приобрету готовый или оплачу разработку, многопоточного граббера (парсера) внутренних ссылок многостраничных сайтов.
ТЗ:
Входные данные:
1.урл с которого начинается парсинг ссылок.
2.Кол-во потоков парсинга
Выходные данные: таблица в БД с уникальными внутренними ссылками заданного сайта, или текстовый файл со списком ссылок.
Принцип работы:
Скрипт собирает все внутренние ссылки с входного урл, и добавляет их в очередь и в список найденных ссылок. Очередь и список найденных ссылок храним в таблицах БД.
Далее идет обход очереди и добавление найденных уникальных ссылок в очередь и в найденные, пока очередь не закончится или скрипт не будет остановлен.
Если на момент запуска скрипта в БД есть очередь ссылок, то стартовый урл игнорируется, просто продолжается обход очереди.
Задача в принципе простая. ContentDownloader который у меня есть, в своем сканере сайтов эту задачу решает большим количеством потоков на ура. Одно но, мне нужно собирать миллионы ссылок, а с этим он справляется уже неважно, результаты парсинга хранятся в оперативной памяти, которая имеет свойство заканчиваться, плюс просто начинает хорошенько на таком количестве уже подтормаживать.
То есть мне нужен скрипт который работает аналогично сканеру сайтов ContentDownloader'а но без его недостатков. Скрипт должен хорошо парсить 10-20млн. ссылок и больше, без потери скорости и не испытывая ограничений по объему памяти. Для этого нужна БД.
По языкам программирования и используемым БД на усмотрение исполнителя, что будет эффективнее.
Жду ваших предложений.
Разделы:
Опубликован:
08.07.2017 | 04:28 [последние изменения: 08.07.2017 | 04:32]