Policy Gradient for Gym

[Deprecated, we are moving to Object-oriented] Proposed architecture.

trajectories = []
for i in range(num_rollouts):
    env = # Gym environment
    state_obs, reward, done, info = # get initial state from env, or initialze appropriately
    agent = Agent(...)
    sampler = Sampler(...)
    trajectory = []
    while (not done):
        old_state_obs = state_obs
        action = sampler.sample_distribution(agent.eval(state))
        (state_obs, reward, done, info) = env.step(action)
        trajectory.append((old_state_obs, action, reward))
    trajectories.append(trajectory)
for trajectory in random_sample(trajectories):
    agent.update_policy(trajectory)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Policy Gradient for Gym

Clone this wiki locally