Исходные данные: сайты anlan.ru,datarex.ru,eurolan.ru,idistribute.ru,spl.group,www.roxton.ru,klavtorg.ru. Необходимо спарсить все товары из всех категорий со всеми параметрами, ссылками на изображения, документацию и связанные товары. Результат нужно выгрузить в json-формате.
В общей сложности 150000+ товаров, причем около 100 тыс только на первом сайте. Он же и самый сложный оказался - защита от ботов, js-скрипты. Тут только через эмуляцию браузера. После того, как получилось обойти стартовую проверку на бота/человека, стало возможно запускать браузер в headless-режиме. Это позволило запустить парсинг в несколько потоков на линуксовых vps без графики. Пришлось наладить повторные попытки и перезапуски, так как сайт периодически переставал отвечать. Что ж, процесс идет, но он небыстрый, так что можно параллельно заняться остальными сайтами.
С остальными всё оказалось гораздо проще. Большинство - статический html, на одном есть даже js-api без всякой защиты, и товаров намного меньше. Большую часть времени занял разбор структуры, а не сам парсинг.
После сбора всех данных со всех сайтов еще небольшой скрипт для проверки и объединения в один файл. Долго ли, коротко ли, но результат готов - большой json-файл нужной структуры.