Нужен скрипт на Python, который извлекал бы таблицы из большого PDF-файла

Ссылка на заказ

Бюджет: 3 000

39.51 $ – 34.65 €

Заказчик выбрал исполнителя:

Сергей Соколкин

Мне нужен скрипт на Python, который извлекал бы несколько таблиц из большого PDF-файла и помещал бы данные в XLS/XLSX-файл (одна таблица = одна вкладка). Есть некоторые проблемы с использованием стандартных библиотек as is, потому что:
- таблицы начинаются с «пропущенных» ячеек (см. пример прикреплённого файла),
- тексты некоторых ячеек имеют переносы строк.
Могут быть и другие проблемы (но я их не заметил). Файл весит 39 МБ, содержит 133 страницы и всего 51 таблицу (каждая начинается с «MAIN SPECIFICATIONS»).
Кстати, я пробовал ChatGPT и Claude — через них в итоге ничего не получилось.
Используйте любую бесплатную библиотеку Python. Работу проверяю локально в своем окружении.

Опубликован 30.07.2025 в 22:44

Заказ находится в архиве

Посмотреть другие заказы

Создать заказ

Выберите способ верификации:

подключить вход по Сбер ID
по Альфа ID

для клиентов Альфа-банка
верификация Самозанятого

привязка профиля на FL.ru к приложению «Мой налог» или личному кабинету плательщика НПД по номеру телефона
верификация данных

физлиц, юрлиц и ИП, резидентов любых стран (не только РФ)
заполнение раздела Финансы в настройках профиля и прохождение модерации

Обновите страницу после прохождения верификации.

Нужен скрипт на Python, который извлекал бы таблицы из большого PDF-файла

Выберите способ верификации:

Теги: Специалисты по парсингу, недорого, FL.ru