Денис Токарев
Заказчик Денис Токарев d_tokarev | FL.RU

Денис Токарев

На сайте 15 лет и 1 месяц (заходил 8 лет 9 месяцев 17 дней назад)
0
79
Рейтинг
79
Все (2)       Заказы (2)        Вакансии (0)       Конкурсы (0)
Разместить заказ
08 Июля 2017
По договоренности
Приобрету готовый или оплачу разработку, многопоточного граббера (парсера) внутренних ссылок многостраничных сайтов.
ТЗ:
Входные данные:
1.урл с которого начинается парсинг ссылок.
2.Кол-во потоков парсинга
Выходные данные: таблица в БД с уникальными внутренними ссылками заданного сайта, или текстовый файл со списком ссылок.

Принцип работы:
Скрипт собирает все внутренние ссылки с входного урл, и добавляет их в очередь и в список найденных ссылок. Очередь и список найденных ссылок храним в таблицах БД.
Далее идет обход очереди и добавление найденных уникальных ссылок в очередь и в найденные, пока очередь не закончится или скрипт не будет остановлен.
Если на момент запуска скрипта в БД есть очередь ссылок, то стартовый урл игнорируется, просто продолжается обход очереди.

Задача в принципе простая. ContentDownloader который у меня есть, в своем сканере сайтов эту задачу решает большим количеством потоков на ура. Одно но, мне нужно собирать миллионы ссылок, а с этим он справляется уже неважно, результаты парсинга хранятся в оперативной памяти, которая имеет свойство заканчиваться, плюс просто начинает хорошенько на таком количестве уже подтормаживать.

То есть мне нужен скрипт который работает аналогично сканеру сайтов ContentDownloader'а но без его недостатков. Скрипт должен хорошо парсить 10-20млн. ссылок и больше, без потери скорости и не испытывая ограничений по объему памяти. Для этого нужна БД.
По языкам программирования и используемым БД на усмотрение исполнителя, что будет эффективнее.

Жду ваших предложений.

Прошло времени с момента публикации: 8 лет 9 месяцев 18 дней 10 часов 6 минут
Раздел: Программирование / Прикладное программирование

22 Июля 2011
По договоренности
Необходим пакет баннеров заглушек для сайта (по типу рекламное место сдается) распространенных форматов 468х60, 120х600, 210х350, 240х420 (готов рассмотреть среди готовых работ).
Также постоянно нужны несложные логотипы 400х100 можно в виде паблик иконки и текста.
Жду предложений от авторов с примерами работ и предложениями по ценам.

Прошло времени с момента публикации: 14 лет 9 месяцев 3 дня 20 часов 2 минуты
Раздел: Дизайн / Баннеры
Наши партнеры
Сведения об ООО «Ваан» внесены в реестр аккредитованных организаций, осуществляющих деятельность в области информационных технологий. ООО «Ваан» осуществляет деятельность, связанную с использованием информационных технологий, по разработке компьютерного программного обеспечения, предоставлению доступа к программе для ЭВМ и является правообладателем программы для ЭВМ «Платформа FL.ru (версия 2.0)».