Бесплатно зарегистрируйся и получай уведомления о новых проектах по работе

Парсинг сайта encar.com в БД MySQL

B
Заказчик
Отзывы фрилансеров: + 5 - 0
Зарегистрирован на сайте 12 лет и 10 месяцев
Бюджет: 1 501 — 2 000 ₽/час
Срок: До месяца
Интересует парсер 2 сайтов:
просьба указат стоимость за каждый.

1) encar.com (для понимания необходимо посмотреть описание как к пользоваться сайтом по ссылке ya.ru/video/preview/89481...
2) kbchachacha.com

ТЗ:
1) Парсинг необходимо делать в БД MySQL, откуда я уже сам буду выводить информацию на необходимые ресурсы (telegram, www и т.д.). Все изображения будет необходимо складывать в папку, название которой будет являться идентификатором машины.

2) Настолько я понимаю придется использовать обход капчи для encar.com точно. Необходимо использовать сервис типа rucaptcha.com или аналогичный.

3) Язык программирования парсера PHP. Планируется запускать несколько экземпляров парсера, где в качестве параметров запуска необходимо использовать: URL конкретной модели и марки.

Пример URL – www.encar.com/fc/fc_carse...

4) Парсить нужно все полезные данные: марка, модель, поколение, коробка, тип двигателя, привод, пробег, год регистрации, месяц регистрации, цена авто, список опций, фотографии, страна продажи авто, название сайта (например encar), город продажи авто.

Пример URL страницы машины:
www.encar.com/dc/dc_carde...

Практически все данные нах-ся в тегах:
<meta name="WT.mnfccd" content="012" />
<meta name="WT.mdlcd" content="066" />
<meta name="WT.clsheadcd" content="002" />
<meta name="WT.clsdetailcd" content="" />
<meta name="WT.mileage" content="49144"/>
<meta name="WT.trns" content="오토"/>
<meta name="WT.whatfuel" content="디젤"/>
<meta name="WT.color" content="쥐색"/>
<meta name="WT.z_vehcat" content="Used"/>
<meta name="WT.z_pgtype" content="details"/>
<meta name="WT.z_price" content="8450"/>
<meta name="WT.z_make" content="BMW"/>
<meta name="WT.z_year" content="2022"/>
<meta name="WT.z_month" content="05"/>
<meta name="WT.z_cat" content="SUV"/>
<meta name="WT.z_CarId" content="37058661"/>
<meta name="WT.z_model_name" content="BMW X5 (G05) "/>
<meta name="WT.z_model_trim" content=" xDrive 30d M 스포츠 "/>
<meta name="WT.z_nrfr" content="www.encar.com"/>

5) Парсить VIN, объем двигателя,  Car comprehensive condition, Car detail и Accident, exchange · repair, etc., history с фото необходимо с URL, куда подставляется car_id, спарсенный ранее.
www.encar.com/md/sl/mdsl_...
Для перехода на эту страницы также можно нажать на кнопку Perfomance check на странице самой машины.

6) Страховая история с размерами выплат зп детали и работу, использование в такси, стразовые выплаты. Для перехода на эту страницы также можно нажать на кнопку Insurance History на странице самой машины или по URL www.encar.com/dc/dc_carde...

7) Сложность парсинга заключается в корейском языке. Весь текст нужен на английском. Наверное надо использовать переводчик через API.

8) Бывает, что одни и те же машины публикуются и на encar.com, и на kbchachacha.com. Необходимо не допустить дублирования записей. Как вариант сравнивать дату произ-ва машины + пробег либо VIN номер, если такой будет указан для машины на обоих сайтах.

9) Необходимо отслеживать снятые с продажи машины. Как вариант проходить отдельным скриптом по тем carid, которые уже добавлены в БД и ,если страница отдает ошибку, помечать машину как удаленную. Возможно предложите более правильное решение.
Разделы:
Заказ
Опубликован:
16.04.2024 | 23:50 [поднят: 16.04.2024 | 23:50]

Теги: Специалисты по парсингу, недорого, FL.ru

Сведения об ООО «Ваан» внесены в реестр аккредитованных организаций, осуществляющих деятельность в области информационных технологий. ООО «Ваан» осуществляет деятельность, связанную с использованием информационных технологий, по разработке компьютерного программного обеспечения, предоставлению доступа к программе для ЭВМ и является правообладателем программы для ЭВМ «Платформа FL.ru (версия 2.0)».