Дополнение алгоритма PPO (reinforcement learning)

Ссылка на заказ

Бюджет: по договоренности

на гите лежит код
github.com/Elizaveta-Parf...

в зип тот же код, но с дескриптором
также статья, которая была написана по этому поводу

нужно будет установить все ПО, которые используются – посмотреть код – как он вообще срабатывает в виртуальном мире

если есть где править – исправить

неравенство – Гронуолла-Беллмана

Почитайте про неравенство и подумайте, где можно его скрестить с нашим PPO

Дипсик неплохой пример для отслеживания траектории предлагает – то бишь, меняем элементарные потенциальные поля на эту штуку. Аттрактор – РРО, а езда по нему фиксируется с помощью этого неравенства.

результат максимум – установить все – проверить код (если есть проблемы – устранить) – внедрить туда это неравенство и получить результат лучше чем когда неравенства не было

Опубликован 12.11.2025 в 12:14

Заказ находится в архиве

Посмотреть другие заказы

Создать заказ

Выберите способ верификации:

подключить вход по Сбер ID
по Альфа ID

для клиентов Альфа-банка
верификация Самозанятого

привязка профиля на FL.ru к приложению «Мой налог» или личному кабинету плательщика НПД по номеру телефона
по скану паспорта

заполнение раздела Финансы в настройках профиля и прохождение модерации

Обновите страницу после прохождения верификации.