Нужно написать скрипт на Python для парсинга всех законодательных актов с сайта pravo.gov.ru (
pravo.gov.ru/proxy/ips/?s..., на котором на 2 ноября 2024 года содержится 3,464,037 документов.
1. Парсинг данных:
Выбрать в поиске только те документы, которые имеют текст.
Использовать фильтрацию по датам для ускорения поиска.
2. На выходе для каждого документа получить:
Полное наименование акта
Дата принятия
Номер акта
Ссылку на документ в формате HTML (пример:
pravo.gov.ru/proxy/ips/?d... Статус документа (например, действует без изменений, утратил силу и др.).
Ссылку на документ в формате RTF (пример:
pravo.gov.ru/proxy/ips/?s... Размер файла документа в формате RTF в килобайтах.
Количество слов в документе.
3. Формат сохранения данных:
Вся собранная информация должна быть сохранена в таблице формата Parquet.
4. Автоматизация обновления данных:
Реализовать DAG-и в Apache Airflow, которые ежедневно будет скачивать новые данные и еженедельно скачивать информацию по всем документам.
Дополнительно:
- Код залить в обговоренный репозиторий на гитхабе