Автоматизация сбора данных участников выставок «Экспоцентр» (iCatalog)

Ссылка на работу
Описание Разработка масштабируемого парсера для извлечения структурированной информации о компаниях-экспонентах с официального портала Expocentr. Целью проекта было создание актуальной базы контактов для маркетинговых исследований и анализа рынка. Работа осложнялась динамической подгрузкой контента и глубокой вложенностью данных в карточках компаний. Стек технологий Python, Selenium, BeautifulSoup4, HTML, JSON, Openpyxl (xlsx). Решение Для реализации задачи был выбран гибридный подход к парсингу: Использование Selenium для обхода динамических элементов, обработки пагинации и взаимодействия с JavaScript-составляющими каталога. Применение BeautifulSoup4 (bs4) для быстрого и эффективного анализа HTML-кода страниц и извлечения текстовых данных из полученных дампов. Реализация логики обработки исключений (Try-Except) для предотвращения остановки скрипта при отсутствии определенных полей (например, e-mail или сайта) у конкретной компании. Структурирование данных в формате словаря (Dictionary) и их промежуточное хранение в формате JSON для минимизации потерь при сбоях. Результат Написан отказоустойчивый скрипт, собирающий 9 ключевых атрибутов организации: от названия и стенда до прямых контактов и подробного описания деятельности. Реализован экспорт данных в формат XLSX, готовый для загрузки в CRM-системы или использования в Excel. Сформирована база данных, включающая сотни организаций, распределенных по категориям, городам и странам.
https://cloud.mail.ru/public/mdD1/THKRQ6dhy?weblink=mdD1/THKRQ6dhy