1. Полностью функциональную модель WAN 2.2 14B t-v с всеми правильными настройками (SageAttention, Lightning LoRA и т.д.) для достижения максимальной скорости генерации в стабильном режиме.
2. Установка модели Qwen3-TTS-1.7-Base для генерации голоса.
3. Создание API-сервера, который может принимать запросы на генерацию видео и аудио. Сервер должен ограничивать генерацию до одной на карту и реализовать базовую систему очереди для последовательного выполнения полученных задач (с обработкой случаев, когда несколько запросов поступают одновременно).
4. При генерации видео аудио-модель должна быть выгружена из памяти, чтобы не превышать лимит VRAM карт. При генерации аудио модель WAN может оставаться в памяти.
5. Сохранить результат как шаблон в vast.ai для дальнейшего использования, в том числе при масштабировании на большее количество карт.
Опубликован 02.02.2026 в 11:42