Задача:
Предоставляется список идентификаторов фильмов которые нужно спарсить,
Скрипт собирает 20 полей с информацией.
Одно поле это массив данных, картинки.
Реализовано:
- Берется ID фильма: https:// www. kinopoisk.ru/film/3498/
3498 указывается в Web-версии парсера
- Либо загружается список ids (5 000 фильмов) и получаем выгрузку с информацией по каждому фильму.
- Выгрузка в JSON либо в CSV.
- Обход капчи, прокси.
Происходит сбор следующей информации:
- Id фильма
- Название
- Год производства
- Страна
- Жанр
- Рейтинг IMDb
- Рейтинг Kinopoisk
- Сиквелы
- Приквелы
- Похожие фильмы
Стек использованных технологий:
- OC Linux (Ubuntu 22.04)
- Apache + MySQL + Php