Заказ закрыт
Нужен скрипт на Python, который извлекал бы таблицы из большого PDF-файла

Бюджет: 3 000 руб
40.11 $ – 33.84 €
Заказчик выбрал исполнителя:
Сергей Соколкин   
Мне нужен скрипт на Python, который извлекал бы несколько таблиц из большого PDF-файла и помещал бы данные в XLS/XLSX-файл (одна таблица = одна вкладка). Есть некоторые проблемы с использованием стандартных библиотек as is, потому что:
- таблицы начинаются с «пропущенных» ячеек (см. пример прикреплённого файла),
- тексты некоторых ячеек имеют переносы строк.
Могут быть и другие проблемы (но я их не заметил). Файл весит 39 МБ, содержит 133 страницы и всего 51 таблицу (каждая начинается с «MAIN SPECIFICATIONS»).
Кстати, я пробовал ChatGPT и Claude — через них в итоге ничего не получилось.
Используйте любую бесплатную библиотеку Python. Работу проверяю локально в своем окружении.
Опубликован 30.07.2025 в 22:44
Заказ находится в архиве

Выберите способ верификации:

Обновите страницу после прохождения верификации.