Необходимо написать простой парсер.
Парсинг веб-сайта
cti.voa.gov.uk/cti/inits.... Исходные данные: csv-файл c перечнем индексов (postcodes.csv)
Алгоритм:
1. В форму на странице
cti.voa.gov.uk/cti/inits.... вводятся первые 4 символа (цифры и буквы), пробелы/whitespace не учитываются. Примеры: "S3 7A" -> "S3 7A", "BN423" -> "BN42", "A 3C FG" -> "A 3C F".
2. Вводим каждый индекс, отправляем форму, получаем результат. Результат может быть 2 видов: а) нет данных по индексу; b) результирующая таблица (result.jpg).
3. Собираем данные из всех в колонок в соответствующий csv-файл. Колонки "Address","Council Tax band","Improvement indicator","Local authority reference number". Сохраняем в файл вида POSTCODE_CURRENT_DATE.csv
Наглядный пример на следюущем индексе "S3 7ABN":
- вставляем в форму "S3 7A";
- парсим данные из всей таблицы (пагинация присутствует);
- сохраняем в файл "S3 7ABN_18032022.csv"
Ожидаемый результат:
1) парсер/скраппер/скрипт, написанный на Python
2) архив со всеми полученными csv-файлами
Срок: 1 день.