image image image image
Решение для бизнеса, работающего с большими объемами неструктурированных технических данных (сервисные центры, e-commerce, базы знаний). Разработал и внедрил автономный промышленный NLP-пайплайн для классификации и структурирования Big Data (100 000+ записей). Ключевая инновация — Архитектура «Учитель-Ученик»: Чтобы не тратить тысячи долларов на платные API (вроде GPT-4), я реализовал систему дистилляции знаний: Разметка (Gemini 2.5 Flash): ИИ-агент автоматически разметил эталонную выборку данных, выделив категории и технические сущности. Обучение (Локальный ИИ): На основе этой разметки я обучил собственные легковесные модели — DistilBERT (классификация) и T5 (генерация текста). Автономный запуск: Итоговая система работает полностью локально, без интернета и затрат на токены. Технические результаты: Производительность: Обработка 13 119 строк за 3 минуты 54 секунды на одной видеокарте (RTX 3060). Это в 10 раз быстрее и в сотни раз дешевле облачных решений. Точность: Попадание в техническую категорию и извлечение артикулов (Part Numbers) — 94-96%. Масштабируемость: Пайплайн поддерживает пакетную обработку (Batching), что позволяет обрабатывать миллионы строк. Стек технологий: Python, PyTorch, Hugging Face Transformers, Google Gemini API (Data Labeling), Pandas, Regular Expressions.
https://github.com/QurusX/appliance-repair-nlp-pipeline