ТЗ по сканеру.
Сканер-паук, который пройдет по всем ссылкам с сайта и соберет их, с поддержкой условий.
Аналог сканера из Content Downloader.
Основные поля
1. Поле ввода начального URL (или лучше нескольких URL, если не проблематично это).(№1 на скрине)
2. Поле для ввода условий добавлений ссылок в очередь, т.е. если в найденной ссылке есть вхождение из этого поля, то она добавляется в очередь на скан. (№2 на скрине) С возможностью условий И/ИЛИ.
3.Поле для ввода условий отбрасывания ссылок из очереди,аналогично п.2 (№3 на скрине)
4. Многопоточность
5.Поле для ввода условий сохранения найденных ссылок, аналогично п.2. (на скрине нету, оно чуть глубже
пункты 2 и 5 позволяют листать нужные страницы и сохранять нужные ссылки, например
Листаем категорию как вхождение "catalog/mobilnye-telefony" в п.2.
А сохраняем нужное как вхождение "products" в п.5.
Опционально:
6.Поле для задания доп. масок ссылок (чтобы можно было собирать не только ссылки из href)
div onclick="location.href='{get}", соберет ссылки отсюда например div onclick="location.href='
;";;
(на скрине нету, но в проге есть)
7. Поскольку мы все равно будем грузить страницу, можно еще сделать сохранение ссылок/добавление в очередь по наличию/отсутствию вхождение контента в тексте страницы (как в п.2 и 3.)
Ну как то так.
На данный момент мне нужна реализация п.1 (для 1 УРЛа), 2, 4 и 5.
Жду предложений по бюджету