Python скрипт для извлечения сложных таблиц из PDF файлов в Excel формат.
Успешно извлечено 51 таблицу из многостраничного PDF документа. Стандартные инструменты не справляются с такими таблицами из-за объединенных ячеек и фрагментации данных.
Проблемы решенные в проекте: "пропущенные" ячейки (merged cells), переносы строк в ячейках, фрагментация заголовков на отдельные символы.
Техническое решение: гибридный подход с визуальным анализом границ через pixel-based алгоритм (PDF → изображение высокого разрешения → поиск вертикальных линий → точное извлечение данных).
Применение: извлечение технических спецификаций, обработка каталогов продукции, конвертация отчетов в аналитические таблицы, автоматизация обработки документации.
Ключевые особенности:
• Гибридная архитектура PyMuPDF + pdfplumber
• Визуальный анализ границ через pixel-based алгоритм
• Адаптивные пороги для разных типов PDF
• Универсальный координатный анализатор
• Excel экспорт с объединенными ячейками и форматированием
• Обработка многострочного текста с сохранением переносов
• Модульная архитектура с полной диагностикой
Технологии: Python 3.12, PyMuPDF, pdfplumber, openpyxl, PIL, numpy, pandas