Приложение - скрипт: собирает, накапливать информацию из блога сайта (около 2000 статей), включая комментарии пользователей (около 60 000).
- скрипт собирает данные о товарах (полное описание, количество, цены) на сайте с помощью Scrapy;
- скрипт сохраняет всю информацию в базу данных на PostgreSQL;
- скрипт умеет делать перевод описаний товаров с помощью google translate на различные языки (для этого используется обращения к разным доменам google);
- скрипт сохраняет картинки из статей;
- скрипт имеет режим обновления (добавляет новые статьи, коментарии);
- текстовая информация сохраняется в исходном форматировании HTML;
- отчеты выгружаются из базы данных в формате xlsx по шаблону заказчика с ограничением в размере файлов (5 Мбайт);
- скрипт работает на сервере заказчика (VPS), задачи приложения выполняются многопоточно.
Разработано на Python c использованием Scrapy, очередей задач (rq-python), Redis, PostgreSQL. Приложение разворачивается с помощью Docker.