Интересует парсер 2 сайтов:
просьба указат стоимость за каждый.
1) encar.com (для понимания необходимо посмотреть описание как к пользоваться сайтом по ссылке
ya.ru/video/preview/89481... 2) kbchachacha.com
ТЗ:
1) Парсинг необходимо делать в БД MySQL, откуда я уже сам буду выводить информацию на необходимые ресурсы (telegram, www и т.д.). Все изображения будет необходимо складывать в папку, название которой будет являться идентификатором машины.
2) Настолько я понимаю придется использовать обход капчи для encar.com точно. Необходимо использовать сервис типа
rucaptcha.com или аналогичный.
3) Язык программирования парсера PHP. Планируется запускать несколько экземпляров парсера, где в качестве параметров запуска необходимо использовать: URL конкретной модели и марки.
Пример URL
www.encar.com/fc/fc_carse... 4) Парсить нужно все полезные данные: марка, модель, поколение, коробка, тип двигателя, привод, пробег, год регистрации, месяц регистрации, цена авто, список опций, фотографии, страна продажи авто, название сайта (например encar), город продажи авто.
Пример URL страницы машины:
www.encar.com/dc/dc_carde... Практически все данные нах-ся в тегах:
<meta name="WT.mnfccd" content="012" />
<meta name="WT.mdlcd" content="066" />
<meta name="WT.clsheadcd" content="002" />
<meta name="WT.clsdetailcd" content="" />
<meta name="WT.mileage" content="49144"/>
<meta name="WT.trns" content="오토"/>
<meta name="WT.whatfuel" content="디젤"/>
<meta name="WT.color" content="쥐색"/>
<meta name="WT.z_vehcat" content="Used"/>
<meta name="WT.z_pgtype" content="details"/>
<meta name="WT.z_price" content="8450"/>
<meta name="WT.z_make" content="BMW"/>
<meta name="WT.z_year" content="2022"/>
<meta name="WT.z_month" content="05"/>
<meta name="WT.z_cat" content="SUV"/>
<meta name="WT.z_CarId" content="37058661"/>
<meta name="WT.z_model_name" content="BMW X5 (G05) "/>
<meta name="WT.z_model_trim" content=" xDrive 30d M 스포츠 "/>
<meta name="WT.z_nrfr" content="
www.encar.com"/>
5) Парсить VIN, объем двигателя, Car comprehensive condition, Car detail и Accident, exchange · repair, etc., history с фото необходимо с URL, куда подставляется car_id, спарсенный ранее.
www.encar.com/md/sl/mdsl_... Для перехода на эту страницы также можно нажать на кнопку Perfomance check на странице самой машины.
6) Страховая история с размерами выплат зп детали и работу, использование в такси, стразовые выплаты. Для перехода на эту страницы также можно нажать на кнопку Insurance History на странице самой машины или по URL
www.encar.com/dc/dc_carde... 7) Сложность парсинга заключается в корейском языке. Весь текст нужен на английском. Наверное надо использовать переводчик через API.
8) Бывает, что одни и те же машины публикуются и на encar.com, и на kbchachacha.com. Необходимо не допустить дублирования записей. Как вариант сравнивать дату произ-ва машины + пробег либо VIN номер, если такой будет указан для машины на обоих сайтах.
9) Необходимо отслеживать снятые с продажи машины. Как вариант проходить отдельным скриптом по тем carid, которые уже добавлены в БД и ,если страница отдает ошибку, помечать машину как удаленную. Возможно предложите более правильное решение.