Парсинг форума

Бюджет: 1 500 руб
20.86 $ – 18.08 €
Доброго времени суток. 

Имеется форум (один из известных торрентов) со стандартной иерархией разделов. 
Интересует один из таких разделов, в котором содержится несколько подразделов, и в которых, в свою очередь, содержатся записи, по 50 штук на одной странице. Страниц с записями в подразделах может быть много.

В каждой записи есть одно из ключевых значений: год выпуска (либо в одном значении, либо в диапазоне)
Следующее ключевое значение – название самой темы (записи). 
В названии темы содержится название фильма, и таких названий по разным подразделам может быть много (то есть они повторяются), при этом их различия только в качестве, наличии субтитров и т.д. и т.п. То есть общее только название и год. При этом более главным будет именно название.

Требуется:

1. Вывод данных со всех нужных подразделов форума так, чтобы в отсортированном виде шли названия тем (имена фильмов), и чтобы повторяющиеся ( в любой последовательности) слова из названий разных тем были рядом.

Следующий столбец для сортировки – год выпуска. Следующий – вес файла. И последний – магнет-ссылка на него.

Пример: 
Значения (названия тем)
38 попугаев (Иван Уфимцев) [1976-1991.г., Мультфильмы, DVD5] Крупный план (2002), реставрация. 3.59 Гб
38 попугаев (Иван Уфимцев) [1976-1991, СССР, мультфильм, короткометражка, WEBRip 1080p] 3.36 Гб
38 попугаев (Иван Уфимцев) [1976-1991, Мультфильм, DVDRip] 696 Мб 
И так далее...

Думаю так же потребуется вывод скриншотов, если они есть в живом виде в раздаче. Для визуальной оценки качества.

2. Нужно сравнить выведенные значения с тем, что уже есть на диске для понимания того, что нужно скачать, а что не надо.
То, что уже есть на диске выводится командой dir /с /s > D:filelist.tхt в командной строке Windows. 
Возможно, приведенная команда имеет более функциональную альтернативу (утилиту) чтобы при ее помощи сделать файл с данными для сравнения с тем, что получено с форума.

Сам файл предоставлю.

Как более дорогой вариант: создание небольшой программы с указанным функционалом, в т.ч. сравнения имен и размеров результата парсинга с тем что уже имеется путем указания нужного диска/папки.

Опубликован 26.03.2020 в 12:25 Последнее изменение: 26.03.2020 в 12:25

Выберите способ верификации:

Обновите страницу после прохождения верификации.