VQA модель

Ссылка на заказ

Бюджет: 150 000

1 986.04 $ – 1 699.09 €

Необходимо разработать мультимодальную модель (на базе TransfromerEncoder + SwinTransformer / ViT).
Модель получает на вход изображение + запрос.

В качестве вывода – ответ на вопрос. Для ответа используется только сам запрос и изображение (нет никакой внешней информации).
На первом этапе предполагается ответ на 50 вопросов заранее определенных + их перефразирования

Опубликован 10.01.2026 в 13:06

Посмотреть другие заказы

Откликнуться Создать заказ

Выберите способ верификации:

подключить вход по Сбер ID
по Альфа ID

для клиентов Альфа-банка
верификация Самозанятого

привязка профиля на FL.ru к приложению «Мой налог» или личному кабинету плательщика НПД по номеру телефона
по скану паспорта

заполнение раздела Финансы в настройках профиля и прохождение модерации

Обновите страницу после прохождения верификации.