HalfCheetah

Имплементация алгоритмов DDPG и PPO.

Обучение и тестирование в среде Half-Cheetah из MuJoCo.

Статья про PPO, по которой писался алгоритм: https://arxiv.org/pdf/1707.06347.pdf

Запуск

Для запуска обучения алгоритма DDPG:

python3 train_ddpg.py

Для запуска обучения алгоритма PPO:

python3 train_ppo.py

На данный момент удалось достичь такого результата с помощью алгоритма PPO. Требуется доработка алгоритма и более тщательный подбор гиперпараметров.

walk_face.mp4