Скрипт обработки html на python

Ссылка на заказ

Бюджет: по договоренности

Пример работы скрипта:

scraping.py my-domain.com -> парсит домен с помощью wget (Создание локальной копии веб-сайта)
и сохранияет все html файлы страницы в папке [domain] название домена

clean.py -> удаляет html указанный в data.json код в файлах директории /my-domain.com

remove_data -> заменяет данные в html страницах указанные в файле data.json

единый data.json файл для работы с html
{
"clean": "<i class="svg triangle inline " aria-hidden="true"><svg width="3" height="5"><use xlink:href="/local/templates/aspro_max_copy/images/svg/trianglearrow_sprite.svg#trianglearrow_r ight"></use></svg></i>",

"rewrite": {
"initial_data": "<script src=\"/analytics.js\"></script>",
"replaceable datat": "8 800"
},

"add": {
"initial_data": "</footer>",
"to_add": "<div class="banner_content_bottom_container flexbox flexbox--gap flexbox--gap-16">
</div>"
}
}
----------------------------------------------------------------------
wget – параметры
(
# Рекурсивное скачивание
# Не подниматься выше базового URL
# Принудительно добавлять .html к файлам
# Конвертировать ссылки для локального просмотра
# Скачивать все необходимые ресурсы (CSS, JS, изображения)
# Безопасные имена файлов
# Игнорировать SSL-сертификаты
)

Все должно быть логировано и обработано с помощью исключения
----------------------------------------------------------------------
/html_processing_toolkit/
│
│
├── scraping.py # Модуль для парсинга сайта
├── clean.py    # Модуль для удаления HTML-кода
├── remove_data.py    # Модуль для замены данных
├── add_data.py # Модуль для добавления нового кода
│
├── data.json # Единый конфигурационный файл
│
├── logs/ # Директория для логов
│   ├── scraping.log    # Логи парсинга
│   ├── processing.log    # Логи обработки
│   └── errors.log    # Логи ошибок
│
├── results/    # Директория для сохранения результатов парсинга
│   └── [domain]/ # Папка с доменом (например, my-domain.com/)
│    ├── index.html    # Страницы сайта
│    ├── page1.html
│    └── ...
│
└── requirements.txt    # Зависимости Python

Опубликован 03.02.2026 в 22:53

Посмотреть другие заказы

Откликнуться Создать заказ

Выберите способ верификации:

подключить вход по Сбер ID
по Альфа ID

для клиентов Альфа-банка
верификация Самозанятого

привязка профиля на FL.ru к приложению «Мой налог» или личному кабинету плательщика НПД по номеру телефона
по скану паспорта

заполнение раздела Финансы в настройках профиля и прохождение модерации

Обновите страницу после прохождения верификации.