Подключите нашего Telegram-бота для уведомлений о новых проектах

Заказ закрыт
Парсинг законодательных актов с сайта pravo.gov.ru и автоматизация обновления данных

Разместить заказ
s
Заказчик
Отзывы фрилансеров: + 0 - 0
Зарегистрирован на сайте 2 года и 4 месяца
Бюджет: 1500 ₽/час
 Нужно написать скрипт на Python для парсинга всех законодательных актов с сайта pravo.gov.ru (pravo.gov.ru/proxy/ips/?s..., на котором на 2 ноября 2024 года содержится 3,464,037 документов. 

1. Парсинг данных:
   – Выбрать в поиске только те документы, которые имеют текст.
   – Использовать фильтрацию по датам для ускорения поиска.

2. На выходе для каждого документа получить:
   – Полное наименование акта
   – Дата принятия
   – Номер акта
   – Ссылку на документ в формате HTML (пример: pravo.gov.ru/proxy/ips/?d...
   – Статус документа (например, действует без изменений, утратил силу и др.).
   – Ссылку на документ в формате RTF (пример: pravo.gov.ru/proxy/ips/?s...
   – Размер файла документа в формате RTF в килобайтах.
   – Количество слов в документе.

3. Формат сохранения данных:
   – Вся собранная информация должна быть сохранена в таблице формата Parquet.

4. Автоматизация обновления данных:
   – Реализовать DAG-и в Apache Airflow, которые ежедневно будет скачивать новые данные и еженедельно скачивать информацию по всем документам.

Дополнительно:
- Код залить в обговоренный репозиторий на гитхабе
Разделы:
Опубликован:
04.11.2024 | 08:51 [поднят: 04.11.2024 | 08:51]
Заказ находится в архиве
Откликнуться Посмотреть другие заказы

Теги:

Наши партнеры
Сведения об ООО «Ваан» внесены в реестр аккредитованных организаций, осуществляющих деятельность в области информационных технологий. ООО «Ваан» осуществляет деятельность, связанную с использованием информационных технологий, по разработке компьютерного программного обеспечения, предоставлению доступа к программе для ЭВМ и является правообладателем программы для ЭВМ «Платформа FL.ru (версия 2.0)».