Update ppo script to reproduce the tutorial result

RL4AA · Feb 2, 2024 · 600de2c · 600de2c
1 parent 2c5deb3
commit 600de2c
Showing 1 changed file with 6 additions and 4 deletions.
diff --git a/meta-rl/ppo.py b/meta-rl/ppo.py
@@ -3,10 +3,9 @@
 
 import numpy as np
 import torch
-from stable_baselines3 import PPO
-
 from maml_rl.envs.awake_steering_simulated import AwakeSteering as awake_env
 from policy_test import verify_external_policy_on_specific_env
+from stable_baselines3 import PPO
 
 
 def main(args):
@@ -38,14 +37,17 @@ def main(args):
         model = PPO(
             "MlpPolicy", env, verbose=1, seed=seed, tensorboard_log="./logs/ppo/"
         )
-        model.learn(total_timesteps=args.steps)
+        model.set_random_seed(seed)
+        if args.steps > model.n_steps:
+            model.learn(total_timesteps=args.steps)
         model.save(args.output_file)
     else:
         print("Loading model...")
         model = PPO.load(args.output_file)
 
     def get_deterministic_policy(x):
-        return model.predict(x, deterministic=True)[0]
+        return model.predict(x)[0]
+        # return model.action_space.sample()
 
     policy = get_deterministic_policy