Парсер для сбора данных компаний из бизнес-каталогов с автоматической обработкой PDF документов и экспортом в Excel.
Реализовано в коммерческом проекте: Система успешно обработала 117 категорий деятельности, включая извлечение контактных данных из PDF документов организационных карточек.
Проект включал полный цикл обработки данных: парсинг веб-каталога, извлечение информации из PDF документов, структурирование и экспорт в Excel с автоматической классификацией по заданным критериям.
Применение: сбор B2B базы, мониторинг конкурентов, анализ рынка, обновление деловых справочников, аналитические исследования.
Ключевые особенности:
• Модульная архитектура с обработкой ошибок
• Adaptive rate limiting для этичного парсинга
• Извлечение данных из PDF документов (PyMuPDF, pdfplumber)
• Система восстановления при сбоях с кешированием прогресса
• Email уведомления для long-running процессов
• Автоматическая классификация и фильтрация данных
• Экспорт в Excel с настраиваемой структурой
Технологии: Python 3.12, requests, BeautifulSoup4, pandas, PyMuPDF, pdfplumber, xlsxwriter, SMTP
Результат: готовая база данных компаний в Excel формате с полной контактной информацией, отфильтрованная по заданным критериям.