Необходимо разработать мультимодальную модель (на базе TransfromerEncoder + SwinTransformer / ViT).
Модель получает на вход изображение + запрос.
В качестве вывода ответ на вопрос. Для ответа используется только сам запрос и изображение (нет никакой внешней информации).
На первом этапе предполагается ответ на 50 вопросов заранее определенных + их перефразирования
Опубликован 10.01.2026 в 13:06