Цель: создание двойника действующего проекта Масштаб и результат: CUBA/PyTorch и оркестрацией Docker Compose Инференс через vLLM/TGI со стримингом SSE/WebSocket LoRA‑дообучение, контроль оверфита, валидация RAG на Qdrant: индексация, извлечение, re‑rank, prompt‑fusion Оптимизация латентности: KV‑кэш, квантование Веб‑интерфейс: чат, источники, режимы; GitLab CI/CD Ключевые сложности и решения: Баланс качества/скорости Регуляризация LoRA, ранняя остановка Надёжный RAG: chunking 800–1200, multi‑query, защита от галлюцинаций Короткий TTFB: прогрев, prefill‑кэш, асинхронный I/O Архитектура: LLM: Mistral‑7B‑Instruct + LoRA (PEFT), инференс vLLM/TGI, SSE/WebSocket RAG: парсинг PDF/DOCX/HTML, multilingual‑e5‑large → Qdrant, retrieval + re‑rank API: FastAPI (/chat, /ask, /sources), JWT‑авторизация Web: Next.js мини‑чат Трекинг: W&B/MLflow, артефакты MinIO; мониторинг Prometheus/Grafana Стек и технологии: PyTorch, Transformers, PEFT (LoRA/QLoRA), vLLM/TGI; FastAPI; Qdrant; Sentence‑Transformers (e5‑large); Next.js/React/TS; SSE/WebSocket Docker, GitLab CI/CD; CUDA/cuDNN, uvloop/asyncio; pydantic/orjson Качество данных и контроль: Датасет 2000 пар: дедупликация, стратификация, sanity‑чеки Метрики: exact match, Rouge‑L Что получил заказчик: ИИ-руководитель проекта ВБД хранения информации Загрузка/выгрузка кастомизированных отчетов Рекомендации ИИ по оптимизации работы предприятия Доменный ассистент с ответами (≤5 с) Веб‑чат и API + репозитории в GitLab с CI/CD