Мне нужен скрипт на Python, который извлекал бы несколько таблиц из большого PDF-файла и помещал бы данные в XLS/XLSX-файл (одна таблица = одна вкладка). Есть некоторые проблемы с использованием стандартных библиотек as is, потому что:
- таблицы начинаются с «пропущенных» ячеек (см. пример прикреплённого файла),
- тексты некоторых ячеек имеют переносы строк.
Могут быть и другие проблемы (но я их не заметил). Файл весит 39 МБ, содержит 133 страницы и всего 51 таблицу (каждая начинается с «MAIN SPECIFICATIONS»).
Кстати, я пробовал ChatGPT и Claude — через них в итоге ничего не получилось.
Используйте любую бесплатную библиотеку Python. Работу проверяю локально в своем окружении.
Опубликован 30.07.2025 в 22:44
Заказ находится в архиве