LLM-парсинг прайсов и каталогов → структурированная база данных

Ссылка на работу
image
Задача: каталог поставщика приходит прайсами в PDF и Excel — сотни позиций с характеристиками. Заносить вручную в базу долго, дорого и с ошибками. Что построил: пайплайн, который сам извлекает данные из прайсов и кладёт их в структурированную базу, готовую к поиску и интеграции. Как работает: — Извлечение через LLM: из страниц PDF/Excel вытягиваются наименования, характеристики, артикулы и цены — даже из «грязной» вёрстки, где обычный парсер ломается. — Нормализация и валидация: данные приводятся к единому виду, проверяются, отбраковывается мусор. — Заливка в PostgreSQL через пайплайн на n8n + Directus: удобная админка поверх базы. — Идемпотентные апдейты: повторный прогон не плодит дубли — позиции обновляются по стойкому ключу. Результат: ручной ввод каталога заменён автоматическим конвейером — характеристики из прайсов попадают в чистую базу, готовую к выдаче на витрину и интеграциям. Стек: Python, LLM (OpenAI/Claude API), n8n, Directus, PostgreSQL, обработка PDF/Excel.