Решение для бизнеса, работающего с большими объемами неструктурированных технических данных (сервисные центры, e-commerce, базы знаний).
Разработал и внедрил автономный промышленный NLP-пайплайн для классификации и структурирования Big Data (100 000+ записей).
Ключевая инновация — Архитектура «Учитель-Ученик»:
Чтобы не тратить тысячи долларов на платные API (вроде GPT-4), я реализовал систему дистилляции знаний:
Разметка (Gemini 2.5 Flash): ИИ-агент автоматически разметил эталонную выборку данных, выделив категории и технические сущности.
Обучение (Локальный ИИ): На основе этой разметки я обучил собственные легковесные модели — DistilBERT (классификация) и T5 (генерация текста).
Автономный запуск: Итоговая система работает полностью локально, без интернета и затрат на токены.
Технические результаты:
Производительность: Обработка 13 119 строк за 3 минуты 54 секунды на одной видеокарте (RTX 3060). Это в 10 раз быстрее и в сотни раз дешевле облачных решений.
Точность: Попадание в техническую категорию и извлечение артикулов (Part Numbers) — 94-96%.
Масштабируемость: Пайплайн поддерживает пакетную обработку (Batching), что позволяет обрабатывать миллионы строк.
Стек технологий:
Python, PyTorch, Hugging Face Transformers, Google Gemini API (Data Labeling), Pandas, Regular Expressions.
https://github.com/QurusX/appliance-repair-nlp-pipeline