Всем привет! Парсер должен:
1. Уметь в режиме расширенного поиска на сайте zakupki.gov.ru задавать:
- закон
- цену контракта
- дату размещения заказа
- субъект РФ
- этап закупки
2. Иметь настройки последовательности поиска и ограничений.
3. Вести историю поисковых запросов
Пример.
1. Задаем парсеру параметры поиска:
- закон 44-ФЗ 223-ФЗ 94-ФЗ
- цена от 1000000 до 2000000
- дата размещения с 15.01.2018 по 15.01.2018
- субъект Адыгея
- этап закупки закупка завершена
2. Задаем парсеру последовательность поиска и ограничения:
- при отработке результатов поиска изменять дату на х дней назад (или вперед).
- ограничить период поиска, например, с 2017 по 2018 г
- при окончании поиска в заданном периоде (например, с 2017 по 2018 г) начать поиск заново, но субъект РФ заменить на следующий по списку (т.е. после Адыгеи будет Алтай)
- при окончании поиска по всем регионам начать поиск сначала, но изменить цену контракта на х рублей меньше (или больше) (например на 500000 р, т.е. вместо с 1000000 по 2000000 станет с 500000 по 1000000)
- этап закупки не менять
- сохранять результаты в новый файл или продолжать в предыдущий
Что ищет парсер:
1. Заходит в каждую закупку из найденных и берет название закупки, ссылку на нее, название заказчика, его адрес, инн и огрн, эл.почту, телефон (все разичающиеся эл.почты и телефоны на странице)
Причем эл.почта и телефон заказчика также надо брать переходя по ссылке, вшитой в наименование заказчика зачастую они отличаются от приведнных на странице заказа.
Нашел два вида страниц заказчиков:
первая
здесь контактные данные срау есть
вторая
здесь контактные данные надо брать во вкладке "дополнительная информация"
Парсер должен отслеживать ссылки страниц заказчиков, чтобы не заходить в них каждый раз, а только в первый.
2. У подрядчиков ищем также названия, адреса, инн и огрн, эл.почту, телефоны
Я нашел два вида страниц закупок с разной структурой:
вот первая:
где данные подрядчиков находятся так выбрать вкладку "РЕЗУЛЬТАТЫ ОПРЕДЕЛЕНИЯ ПОСТАВЩИКА", в ней в разделе "СВЕДЕНИЯ О КОНТРАКТЕ ИЗ РЕЕСТРА КОНТРАКТОВ" переходить поочередно по ссылкам, по которым открываются "Карточки контрактов"
ссылки на контракты могут быть спрятаны, как например здесь
или вот другая структура страницы закупки:
где данные подрядчиков находятся так выбрать вкладку "протоколы", в ней выбрать нужный протокол (если пытается загрузиться в виде файла, то игнорировать), в протоколе выбрать вкладку "список заявок", где под спойлерами будут заявки открываем каждую, берем данные
сохранять данные в эксель в виде:
эл.почта подрядчика-телефон подрядчика-инн подрядчика-название подрядчика-номер контракта-ссылка на контракт-дальше все остальное...