mlagents-config.yaml

# 1260 steps in a 105 second game. All values are based off of this
# train every 10 games, with opponent every 20 games


default_settings: null
behaviors:
  15robot:
    trainer_type: ppo
    hyperparameters:
      batch_size: 1050
      buffer_size: 10500
      learning_rate: 0.0003
      beta: 0.005
      epsilon: 0.2
      lambd: 0.95
      num_epoch: 3
      learning_rate_schedule: linear
      #beta_schedule: linear
      #epsilon_schedule: linear
    network_settings:
      normalize: false
      hidden_units: 128
      num_layers: 2
      vis_encode_type: simple
      memory: null
      goal_conditioning_type: hyper
      deterministic: false
    reward_signals:
      extrinsic:
        gamma: 0.99
        strength: 1.0
        network_settings:
          normalize: false
          hidden_units: 128
          num_layers: 2
          vis_encode_type: simple
          memory: null
          goal_conditioning_type: hyper
          deterministic: false
    init_path: null
    keep_checkpoints: 5
    checkpoint_interval: 200000
    max_steps: 1000000
    time_horizon: 64
    summary_freq: 3150
    threaded: false
    self_play:
      window: 10
      play_against_latest_model_ratio: 0.5
      save_steps: 10000
      swap_steps: 10000
      team_change: 50000
    behavioral_cloning: null
engine_settings:
  width: 84
  height: 84
  quality_level: 1
  time_scale: 20
  target_frame_rate: -1
  capture_frame_rate: 60
  no_graphics: false
environment_parameters: null
checkpoint_settings:
  run_id: new_config
  initialize_from: null
  load_model: false
  resume: false
  force: true
  train_model: false
  inference: false
  results_dir: results
torch_settings:
  device: cuda
debug: false