Нужен особый парсер данных на сайте. Парсер должен быть решен в десктопном исполнении, с интерфейсом, понятным не специалисту.
Парсер должен находить нужны данные, сохранять их в файл csv или xls. А PDF файлы складывать в папку. Необходимо чтобы при работе парсера можно было визуально контролировать его работу. необходимо так же, чтобы парсер умел фильтровать одинаковые данные, чтобы несколько раз не парсить одно и тоже. Так же необходимо постоянно промежуточное сохранение спарсенных данных (например раз в 10 сек или примерно так), чтобы в случае сбоя работы программы или машины, спарсенные данные не были потеряны.
Так же необходимы кнопки для ручного прерывания и возобновления парсинга и для полной остановки.
теперь что он должен парсить.
Есть сайт
На сайте есть рубрикатор
внутри рубрик открывается список журналов и публикаций
внутри журналов открываются собственно выпуски этих журналов, например так
на это странице нам доступны емейлы авторов как здесь
они-то нам и нужны. Но это еще не все.
все авторы собраны на одной отдельной странице, так что их данные можно спарсить оттуда
с предварительным выбором рубрики
Кроме этого нам еще нужны публикации, которые можно скачать. Они отмечены таким значком
публикации можно парсить именно из рубрикатора журналов. и только те, которые можно скачать. например как здесь.
Для простоты нам нужны всего две рубрики:
67.00.00 Строительство. Архитектура
75.00.00 Жилищно-коммунальное хозяйство. Домоводство. Бытовое обслуживание
как мы видим это решение: парсер скачивает сначала каталог. потом предлагает выбрать пользователю журналы, которые будет парсить. потом парсит по выбранным журналам все публикации, которые можно скачать.
парсин авторов проще пользователь указывает парсеру, какую рубрику с авторами нужно спасить и он программа просто обходит все фамилии и скачивает все емелы, которые к этим фамилиям относятся.
в итоге может получиться один парсер, который умеет и то и другое (парсить и авторов и публикации, доступные для скачивания). или два разных парсера как решит исполнитель.
Бюджет по договоренности. Сроки как можно быстрее. Работаем только через БС.