Парсер бизнес-каталогов с обработкой PDF документов и экспортом в Excel

image
Парсер для сбора данных компаний из бизнес-каталогов с автоматической обработкой PDF документов и экспортом в Excel. Реализовано в коммерческом проекте: Система успешно обработала 117 категорий деятельности, включая извлечение контактных данных из PDF документов организационных карточек. Проект включал полный цикл обработки данных: парсинг веб-каталога, извлечение информации из PDF документов, структурирование и экспорт в Excel с автоматической классификацией по заданным критериям. Применение: сбор B2B базы, мониторинг конкурентов, анализ рынка, обновление деловых справочников, аналитические исследования. Ключевые особенности: • Модульная архитектура с обработкой ошибок • Adaptive rate limiting для этичного парсинга • Извлечение данных из PDF документов (PyMuPDF, pdfplumber) • Система восстановления при сбоях с кешированием прогресса • Email уведомления для long-running процессов • Автоматическая классификация и фильтрация данных • Экспорт в Excel с настраиваемой структурой Технологии: Python 3.12, requests, BeautifulSoup4, pandas, PyMuPDF, pdfplumber, xlsxwriter, SMTP Результат: готовая база данных компаний в Excel формате с полной контактной информацией, отфильтрованная по заданным критериям.