Имплементация алгоритмов DDPG и PPO.
Обучение и тестирование в среде Half-Cheetah из MuJoCo.
Статья про PPO, по которой писался алгоритм: https://arxiv.org/pdf/1707.06347.pdf
Для запуска обучения алгоритма DDPG:
python3 train_ddpg.py
Для запуска обучения алгоритма PPO:
python3 train_ppo.py
На данный момент удалось достичь такого результата с помощью алгоритма PPO. Требуется доработка алгоритма и более тщательный подбор гиперпараметров.
walk_face.mp4
- TRPO
- SAC
- A3C