Исходные данные: сайт https://pkf-m.ru/. Необходимо товары из всех категорий со всеми параметрами.
Как выглядит в браузере? Сайт в стиле интернет-магазина со 100+ категориями товаров и 50000+ карточками товаров. Все категории каталога можно увидеть на главной странице, товары в категориях разбиты постранично с возможностью отображения 20-100 карточек товара на странице. Чтобы увидеть все характеристики, надо щелкнуть на карточку товара.
Что "под капотом"? Содержимое динамическое, но страница открывается после подгрузки всех карточек. Т.е. получается псевдостатические страницы. Что дает возможность получать данные с помощью обычных запросов, тем более, что метод пэджинации тоже позволяет использовать get-запросы для получения следующих страниц. Значит, тут будет достаточно связки requests + bs4. Получаем список всех категорий с главной страницы, обходим каталог, обходи все страницы в категории, получаем все карточки на странице, по извлеченным из них ссылкам проходим по карточкам товаров и получаем список параметров, фото и описание.
Товаров очень много - в одном потоке такое сутками загружать.... Что ж, добавим многопоточность. Благо, на сайте пока нет защиты и даже без прокси работает несколько подключение одновременно.