Заказ закрыт
Дополнение алгоритма PPO (reinforcement learning)

Бюджет: по договоренности
на гите лежит код 
github.com/Elizaveta-Parf...

в зип тот же код, но с дескриптором
также статья, которая была написана по этому поводу

нужно будет установить все ПО, которые используются – посмотреть код – как он вообще срабатывает в виртуальном мире

если есть где править – исправить

неравенство – Гронуолла-Беллмана

Почитайте про неравенство и подумайте, где можно его скрестить с нашим PPO

Дипсик неплохой пример для отслеживания траектории предлагает – то бишь, меняем элементарные потенциальные поля на эту штуку. Аттрактор – РРО, а езда по нему фиксируется с помощью этого неравенства.

результат максимум – установить все – проверить код (если есть проблемы – устранить) – внедрить туда это неравенство и получить результат лучше чем когда неравенства не было
Опубликован 12.11.2025 в 12:14
Заказ находится в архиве

Выберите способ верификации:

Обновите страницу после прохождения верификации.