Задача: каталог поставщика приходит прайсами в PDF и Excel — сотни позиций с характеристиками. Заносить вручную в базу долго, дорого и с ошибками.
Что построил: пайплайн, который сам извлекает данные из прайсов и кладёт их в структурированную базу, готовую к поиску и интеграции.
Как работает:
— Извлечение через LLM: из страниц PDF/Excel вытягиваются наименования, характеристики, артикулы и цены — даже из «грязной» вёрстки, где обычный парсер ломается.
— Нормализация и валидация: данные приводятся к единому виду, проверяются, отбраковывается мусор.
— Заливка в PostgreSQL через пайплайн на n8n + Directus: удобная админка поверх базы.
— Идемпотентные апдейты: повторный прогон не плодит дубли — позиции обновляются по стойкому ключу.
Результат: ручной ввод каталога заменён автоматическим конвейером — характеристики из прайсов попадают в чистую базу, готовую к выдаче на витрину и интеграциям.
Стек: Python, LLM (OpenAI/Claude API), n8n, Directus, PostgreSQL, обработка PDF/Excel.