Python извлечение сложных таблиц из PDF с визуальным анализом границ

image
Python скрипт для извлечения сложных таблиц из PDF файлов в Excel формат. Успешно извлечено 51 таблицу из многостраничного PDF документа. Стандартные инструменты не справляются с такими таблицами из-за объединенных ячеек и фрагментации данных. Проблемы решенные в проекте: "пропущенные" ячейки (merged cells), переносы строк в ячейках, фрагментация заголовков на отдельные символы. Техническое решение: гибридный подход с визуальным анализом границ через pixel-based алгоритм (PDF → изображение высокого разрешения → поиск вертикальных линий → точное извлечение данных). Применение: извлечение технических спецификаций, обработка каталогов продукции, конвертация отчетов в аналитические таблицы, автоматизация обработки документации. Ключевые особенности: • Гибридная архитектура PyMuPDF + pdfplumber • Визуальный анализ границ через pixel-based алгоритм • Адаптивные пороги для разных типов PDF • Универсальный координатный анализатор • Excel экспорт с объединенными ячейками и форматированием • Обработка многострочного текста с сохранением переносов • Модульная архитектура с полной диагностикой Технологии: Python 3.12, PyMuPDF, pdfplumber, openpyxl, PIL, numpy, pandas