Заказчик
Зарегистрирован: 11 лет и 2 месяца
Отзывы + 8 / - 0
Откликнуться

Скрипт обработки html на python

Бюджет: по договоренности
Пример работы скрипта:

scraping.py my-domain.com -> парсит домен с помощью wget (Создание локальной копии веб-сайта)
и сохранияет все html файлы страницы в папке [domain] название домена

clean.py -> удаляет html указанный в data.json код в файлах директории /my-domain.com

remove_data -> заменяет данные в html страницах указанные в файле data.json

единый data.json файл для работы с html 
{
  "clean": "<i class="svg triangle inline " aria-hidden="true"><svg width="3" height="5"><use xlink:href="/local/templates/aspro_max_copy/images/svg/trianglearrow_sprite.svg#trianglearrow_r ight"></use></svg></i>",

  "rewrite": {
    "initial_data": "<script src=\"/analytics.js\"></script>",
    "replaceable datat": "8 800"
  },

  "add": {
  "initial_data": "</footer>",
  "to_add": "<div class="banner_content_bottom_container flexbox flexbox--gap flexbox--gap-16">
</div>"
  }
}
----------------------------------------------------------------------
wget – параметры

# Рекурсивное скачивание
# Не подниматься выше базового URL
# Принудительно добавлять .html к файлам
# Конвертировать ссылки для локального просмотра
# Скачивать все необходимые ресурсы (CSS, JS, изображения)
# Безопасные имена файлов
# Игнорировать SSL-сертификаты
)

Все должно быть логировано и обработано с помощью исключения
----------------------------------------------------------------------
/html_processing_toolkit/


├── scraping.py            # Модуль для парсинга сайта
├── clean.py               # Модуль для удаления HTML-кода
├── remove_data.py         # Модуль для замены данных
├── add_data.py            # Модуль для добавления нового кода

├── data.json              # Единый конфигурационный файл

├── logs/                  # Директория для логов
│   ├── scraping.log       # Логи парсинга
│   ├── processing.log     # Логи обработки
│   └── errors.log         # Логи ошибок

├── results/               # Директория для сохранения результатов парсинга
│   └── [domain]/          # Папка с доменом (например, my-domain.com/) 
│       ├── index.html     # Страницы сайта 
│       ├── page1.html
│       └── ...

└── requirements.txt       # Зависимости Python
Опубликован 03.02.2026 в 22:53

Выберите способ верификации:

Обновите страницу после прохождения верификации.