- [BETA]重构环境接口,接口支持环境同步异步执行。
- [BETA]提供环境Wrapper,提供将Python环境封装成MindSpore支持的环境 (PyFuncWrapper),动作归一化(ActionNormWrapper)等功能。
感谢以下人员做出的贡献:
Pro. Peter, Huanzhou Zhu, Bo Zhao, Gang Chen, Weifeng Chen, Liang Shi, Yijie Chen.
欢迎以任何形式对项目提供贡献!
- [BETA] 支持GAIL(Generative Adversarial Imitation Learning Jonathan Ho et al..2016) 算法。算法解决了HalfCheetah环境问题,支持CPU,GPU和Ascend后端设备。
- [BETA] 支持C51(Marc G. Bellemare et al..2017) 算法。算法解决了CartPole环境问题,支持CPU,GPU和Ascend后端设备。
- [BETA] 支持CQL(Conservative Q-Learning Aviral Kumar et al..2019) 算法。算法解决了Hopper环境问题,支持CPU,GPU和Ascend后端设备。
- [BETA] 支持AWAC(Accelerating Online Reinforcement Learning with Offline Datasets Ashvin Nair et al..2020) 算法。算法解决了Ant环境问题,支持CPU,GPU和Ascend后端设备。
- [BETA] 支持Dreamer(Danijar Hafner et al..2020) 算法。算法解决了Walker-walk环境问题,支持GPU后端设备。
感谢以下人员做出的贡献:
Pro. Peter, Huanzhou Zhu, Bo Zhao, Gang Chen, Weifeng Chen, Liang Shi, Yijie Chen.
欢迎以任何形式对项目提供贡献!
- [STABLE] 增加现有接口的中文API文档。
- [STABLE] 增加强化学习多智能体算法QMIX。
感谢以下人员做出的贡献:
Pro. Peter, Huanzhou Zhu, Bo Zhao, Gang Chen, Weifeng Chen, Liang Shi, Yijie Chen.
欢迎以任何形式对项目提供贡献!
- [STABLE] 支持DDPG强化学习算法
-
修改了
Actor
和Agent
类的接口。它们的方法名被修改成act(self, phase, params)
和get_action(self, phase, params)
。除此之外,删除冗余方法(Actor
类中的env_setter
,act_init
,evaluate
,reset_collect_actor
,reset_eval_actor
,update
, 和Agent
类中的init
,reset_all
)。修改配置文件中的层级结构,将actor
目录下的ReplayBuffer
移出作为algorithm_config
中的一个单独键值。(Rearrange API PR !29) -
增加了
Environment
类的虚基类。它提供step
和reset
方法以及5个space
相关的属性(action_space
,observation_space
,reward_space
,done_space
和config
)
感谢以下人员作出的贡献:
Pro. Peter, Huanzhou Zhu, Bo Zhao, Gang Chen, Weifeng Chen, Liang Shi, Yijie Chen.
欢迎以任意形式对项目提供贡献!