image image image image
Исходные данные: сайты anlan.ru, datarex.ru, eurolan.ru, idistribute.ru, spl.group, www.roxton.ru, klavtorg.ru. Необходимо спарсить все товары из всех категорий со всеми параметрами, ссылками на изображения, документацию и связанные товары. Результат нужно выгрузить в json-формате. В общей сложности 150000+ товаров, причем около 100 тыс только на первом сайте. Он же и самый сложный оказался - защита от ботов, js-скрипты. Тут только через эмуляцию браузера. После того, как получилось обойти стартовую проверку на бота/человека, стало возможно запускать браузер в headless-режиме. Это позволило запустить парсинг в несколько потоков на линуксовых vps без графики. Пришлось наладить повторные попытки и перезапуски, так как сайт периодически переставал отвечать. Что ж, процесс идет, но он небыстрый, так что можно параллельно заняться остальными сайтами. С остальными всё оказалось гораздо проще. Большинство - статический html, на одном есть даже js-api без всякой защиты, и товаров намного меньше. Большую часть времени занял разбор структуры, а не сам парсинг. После сбора всех данных со всех сайтов еще небольшой скрипт для проверки и объединения в один файл. Долго ли, коротко ли, но результат готов - большой json-файл нужной структуры.