В текстовике список адресов интернет-магазинов. Для каждого сайта:
- проверить что магазин русскоязычный и рабочий сайт (домен не просрочен и т.п.)
- проверить что это действительно магазин, т.е. есть страницы товаров и цены
- если какой-либо домен это зеркало другого сайта его можно пропустить
На каждом типичном сайте интернет магазина есть два типа страниц
pdp product display page страница товара
plp product list page страница списка товаров.
Для каждого из сайтов необходимо:
1. Сохранить 1 страницу конкретного товара (pdp):
- зайти на сайт, открыть любую страницу одного товара, сохранить её HTML код в подпапку domain/pdp/p.html
- название товара сохранить в файл item
- цену товара сохранить в файл price
- в файл url адрес страницы
2. Сохранить одну страницу со списком товаров (plp)
- зайти на сайт, открыть любую страницу списка товаров (например подраздел каталога), сохранить её в подпапку domain/plp/p.html
- в файл url адрес страницы
- название товаров по порядку их следования на странице сохранить в файл items, каждый отдельный товар на отдельной строке
- цену каждого товара из списка строго в соответствии с тем, как они идут по порядку в файле items сохранить в файл prices. Т.е не важно в каком порядке они идут на странице, главное чтобы было соответсвие между товаром в items и prices.
В списке может быть очень много товаров, сохранить по крайней мере 4.
Цену сохраняем в виде числа с точкой, т.е. 123р 45 копеек (если вообще гдето вдруг будут копейки)- пишем как 123.45
Если копеек нет в виде целого числа, т.е. 123.
Как сохранять HTML:
Нужен уже отрендеренный в HTML джаваскрипт, который есть на странице, то есть лучше всего открыть консоль браузера,
зайти в закладку "элементы", найти корневой элемент, у него нажать "Редактировать HTML"
и таким образом скопировать HTML код страницы. Сохранение страницы в файлы может сохранить не то, что нужно.
Всего сайтов порядка 300, т.е. примерно нужно сохранить 600 страниц и информацию о них.
Во вложении находится папка с примером, где уже сохранены соответсвующие страницы для 4х сайтов.
Важно внимательно заполнить все данные, без ошибок, так как эти данные будут использованы для обучения ИИ.
Опубликован 01.04.2026 в 17:17