Бюджет: 150 000 руб
1 986.04 $ – 1 699.09 €
Необходимо разработать мультимодальную модель (на базе TransfromerEncoder + SwinTransformer / ViT).
Модель получает на вход изображение + запрос.

В качестве вывода – ответ на вопрос. Для ответа используется только сам запрос и изображение (нет никакой внешней информации).
На первом этапе предполагается ответ на 50 вопросов заранее определенных + их перефразирования
Опубликован 10.01.2026 в 13:06

Выберите способ верификации:

Обновите страницу после прохождения верификации.