Требуется многопоточный граббер (парсер) ссылок с сайта: проект в категории Прикладное программирование, 08.07.2017 в 04:28

d

Заказчик

Отзывы фрилансеров: + 2 - 0

Зарегистрирован на сайте 14 лет и 9 месяцев

Бюджет: по договоренности

Приобрету готовый или оплачу разработку, многопоточного граббера (парсера) внутренних ссылок многостраничных сайтов.
ТЗ:
Входные данные:
1.урл с которого начинается парсинг ссылок.
2.Кол-во потоков парсинга
Выходные данные: таблица в БД с уникальными внутренними ссылками заданного сайта, или текстовый файл со списком ссылок.

Принцип работы:
Скрипт собирает все внутренние ссылки с входного урл, и добавляет их в очередь и в список найденных ссылок. Очередь и список найденных ссылок храним в таблицах БД.
Далее идет обход очереди и добавление найденных уникальных ссылок в очередь и в найденные, пока очередь не закончится или скрипт не будет остановлен.
Если на момент запуска скрипта в БД есть очередь ссылок, то стартовый урл игнорируется, просто продолжается обход очереди.

Задача в принципе простая. ContentDownloader который у меня есть, в своем сканере сайтов эту задачу решает большим количеством потоков на ура. Одно но, мне нужно собирать миллионы ссылок, а с этим он справляется уже неважно, результаты парсинга хранятся в оперативной памяти, которая имеет свойство заканчиваться, плюс просто начинает хорошенько на таком количестве уже подтормаживать.

То есть мне нужен скрипт который работает аналогично сканеру сайтов ContentDownloader'а но без его недостатков. Скрипт должен хорошо парсить 10-20млн. ссылок и больше, без потери скорости и не испытывая ограничений по объему памяти. Для этого нужна БД.
По языкам программирования и используемым БД на усмотрение исполнителя, что будет эффективнее.

Жду ваших предложений.

Разделы:

Программирование / Прикладное программирование

Опубликован:

08.07.2017 | 04:28 [последние изменения: 08.07.2017 | 04:32]

Откликнуться

Выберите способ верификации:

подключить вход по Сбер ID
по Альфа ID

для клиентов Альфа-банка
верификация Самозанятого

привязка профиля на FL.ru к приложению «Мой налог» или личному кабинету плательщика НПД по номеру телефона
по скану паспорта

заполнение раздела Финансы в настройках профиля и прохождение модерации

Обновите страницу после прохождения верификации.

Посмотреть другие заказы Разместить заказ

Требуется многопоточный граббер (парсер) ссылок с сайта

Выберите способ верификации:

Теги: написать программу, создать программу, разработать программу, разработчики программ, прикладной программист