Парсер бухгалтерской отчетности bo.nalog.gov.ru для 35000+ организаций

Ссылка на работу
image image image image
Исходные данные: сайт https://bo.nalog.gov.ru. Есть xlsx-файл со списком 35000+ организаций. Надо на сайте по ИНН организации найти бух. отчетность, получить ряд показателей (дебиторская задолженность, прибыль, выручка и т.п.) и добавить их в этот же файл xls, создав новые колонки для каждой из организаций. Государственные сайты часто весьма удобны для парсинга, так как не заморачиваются с защитой. И этот раз не стал исключением: ИНН для поиска можно передавать в адресной строке через get-запрос, а все ответы получать как статическое содержимое. Бана по количеству запросов нет. Сайт довольно быстро работает, так что хоть надо сделать тысячи запросов, но за ночь даже в один поток данные получить вполне реально. Пишем парсер, закидываем скрипт на vps и можно спать... А поутру результат готов.