Сохранить информацию с сайтов магазинов

Бюджет: 9 000 руб
110.77 $ – 96.49 €
В текстовике список адресов интернет-магазинов. Для каждого сайта:
- проверить что магазин русскоязычный и рабочий сайт (домен не просрочен и т.п.)
- проверить что это действительно магазин, т.е. есть страницы товаров и цены
- если какой-либо домен – это зеркало другого сайта – его можно пропустить

На каждом типичном сайте интернет магазина есть два типа страниц
pdp – product display page – страница товара
plp – product list page – страница списка товаров.

Для каждого из сайтов необходимо:
1. Сохранить 1 страницу конкретного товара (pdp):
- зайти на сайт, открыть любую страницу одного товара, сохранить её HTML код в подпапку domain/pdp/p.html
- название товара сохранить в файл item
- цену товара сохранить в файл price
- в файл url – адрес страницы
2. Сохранить одну страницу со списком товаров (plp)
- зайти на сайт, открыть любую страницу списка товаров (например подраздел каталога), сохранить её в подпапку domain/plp/p.html
- в файл url – адрес страницы
- название товаров по порядку их следования на странице – сохранить в файл items, каждый отдельный товар на отдельной строке
- цену каждого товара из списка строго в соответствии с тем, как они идут по порядку в файле items сохранить в файл prices. Т.е не важно в каком порядке они идут на странице, главное – чтобы было соответсвие между товаром в items и prices.

В списке может быть очень много товаров, сохранить по крайней мере 4.

Цену сохраняем в виде числа с точкой, т.е. 123р 45 копеек (если вообще гдето вдруг будут копейки)- пишем как 123.45
Если копеек нет – в виде целого числа, т.е. 123.

Как сохранять HTML:
Нужен уже отрендеренный в HTML джаваскрипт, который есть на странице, то есть лучше всего открыть консоль браузера,
зайти в закладку "элементы", найти корневой элемент, у него нажать "Редактировать HTML"
и таким образом скопировать HTML код страницы. Сохранение страницы в файлы – может сохранить не то, что нужно.

Всего сайтов порядка 300, т.е. примерно нужно сохранить 600 страниц и информацию о них.

Во вложении находится папка с примером, где уже сохранены соответсвующие страницы для 4х сайтов.
Важно внимательно заполнить все данные, без ошибок, так как эти данные будут использованы для обучения ИИ.
Опубликован 01.04.2026 в 17:17

Выберите способ верификации:

Обновите страницу после прохождения верификации.