config.json

{
    "a3c": {
	"server_ip": "localhost",
	"server_port": 8000,
	"num_actors": 20,
	"env": [
	    "BreakoutDeterministic-v4",
	    "BreakoutDeterministic-v4",
	    "BreakoutDeterministic-v4",
	    "BreakoutDeterministic-v4",
	    "BreakoutDeterministic-v4",
	    "BreakoutDeterministic-v4",
	    "BreakoutDeterministic-v4",
	    "BreakoutDeterministic-v4",
	    "BreakoutDeterministic-v4",
	    "BreakoutDeterministic-v4",
	    "BreakoutDeterministic-v4",
            "BreakoutDeterministic-v4",
            "BreakoutDeterministic-v4",
            "BreakoutDeterministic-v4",
            "BreakoutDeterministic-v4",
            "BreakoutDeterministic-v4",
            "BreakoutDeterministic-v4",
            "BreakoutDeterministic-v4",
            "BreakoutDeterministic-v4",
            "BreakoutDeterministic-v4"],
	"available_action": [4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4],
	"discount_factor": 0.997,
        "model_input": [84, 84, 4],
        "model_output": 4,
        "queue_size": 128,
        "batch_size": 16,
        "trajectory": 32,
	"baseline_loss_coef": 1.0,
	"entropy_coef": 0.05,
	"reward_clipping": "abs_one",
        "start_learning_rate": 1e-4,
        "end_learning_rate": 0.0,
        "learning_frame": 1000000000,
        "gradient_clip_norm": 40.0

    },
    "r2d2": {
        "server_ip": "localhost",
        "server_port": 8000,
        "num_actors": 40,
        "env": [
            "BreakoutDeterministic-v4",
            "BreakoutDeterministic-v4",
            "BreakoutDeterministic-v4",
            "BreakoutDeterministic-v4",
            "BreakoutDeterministic-v4",
            "BreakoutDeterministic-v4",
            "BreakoutDeterministic-v4",
            "BreakoutDeterministic-v4",
            "BreakoutDeterministic-v4",
            "BreakoutDeterministic-v4",
            "BreakoutDeterministic-v4",
            "BreakoutDeterministic-v4",
            "BreakoutDeterministic-v4",
            "BreakoutDeterministic-v4",
            "BreakoutDeterministic-v4",
            "BreakoutDeterministic-v4",
            "BreakoutDeterministic-v4",
            "BreakoutDeterministic-v4",
            "BreakoutDeterministic-v4",
            "BreakoutDeterministic-v4",
	        "BreakoutDeterministic-v4",
            "BreakoutDeterministic-v4",
            "BreakoutDeterministic-v4",
            "BreakoutDeterministic-v4",
            "BreakoutDeterministic-v4",
            "BreakoutDeterministic-v4",
            "BreakoutDeterministic-v4",
            "BreakoutDeterministic-v4",
            "BreakoutDeterministic-v4",
            "BreakoutDeterministic-v4",
            "BreakoutDeterministic-v4",
            "BreakoutDeterministic-v4",
            "BreakoutDeterministic-v4",
            "BreakoutDeterministic-v4",
            "BreakoutDeterministic-v4",
            "BreakoutDeterministic-v4",
            "BreakoutDeterministic-v4",
            "BreakoutDeterministic-v4",
            "BreakoutDeterministic-v4",
            "BreakoutDeterministic-v4"],
        "available_action": [4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4],
	"discount_factor": 0.997,
        "model_input": [84, 84, 1],
        "model_output": 4,
        "queue_size": 128,
        "lstm_size": 64,
        "batch_size": 16,
        "seq_len": 15,
        "burn_in": 7,
        "reward_clipping": "abs_one",
        "start_learning_rate": 1e-4,
        "end_learning_rate": 0.0,
        "learning_frame": 1000000000,
        "gradient_clip_norm": 40.0
    },
    "impala":
    {
        "server_ip": "localhost",
        "server_port": 8000,
        "num_actors": 20,
        "env": [
            "StarGunnerDeterministic-v4",
            "StarGunnerDeterministic-v4",
            "StarGunnerDeterministic-v4",
            "StarGunnerDeterministic-v4",
            "StarGunnerDeterministic-v4",
            "StarGunnerDeterministic-v4",
            "StarGunnerDeterministic-v4",
            "StarGunnerDeterministic-v4",
            "StarGunnerDeterministic-v4",
            "StarGunnerDeterministic-v4",
            "StarGunnerDeterministic-v4",
            "StarGunnerDeterministic-v4",
            "StarGunnerDeterministic-v4",
            "StarGunnerDeterministic-v4",
            "StarGunnerDeterministic-v4",
            "StarGunnerDeterministic-v4",
            "StarGunnerDeterministic-v4",
            "StarGunnerDeterministic-v4",
            "StarGunnerDeterministic-v4",
            "StarGunnerDeterministic-v4"],
        "available_action": [18, 18, 18, 18, 18, 18, 18, 18, 18, 18, 18, 18, 18, 18, 18, 18, 18, 18, 18, 18],
        "batch_size": 32,
        "queue_size": 128,
        "discount_factor": 0.99,
        "model_input": [84, 84, 4],
        "model_output": 18,
        "reward_clipping": "abs_one",
        "trajectory": 20,
        "lstm_size": 256,
        "start_learning_rate": 0.0006,
        "end_learning_rate": 0.0,
        "learning_frame": 1000000000,
        "entropy_coef": 0.05,
        "baseline_loss_coef": 1.0,
        "gradient_clip_norm": 40.0,
        "optimization_method": "impala"
    },
    "apex": {
        "server_ip": "localhost",
        "server_port": 8000,
        "num_actors": 20,
        "env": [
	    "BreakoutDeterministic-v4",
	    "BreakoutDeterministic-v4",
	    "BreakoutDeterministic-v4",
            "BreakoutDeterministic-v4",
            "BreakoutDeterministic-v4",
            "BreakoutDeterministic-v4",
            "BreakoutDeterministic-v4",
            "BreakoutDeterministic-v4",
            "BreakoutDeterministic-v4",
            "BreakoutDeterministic-v4",
            "BreakoutDeterministic-v4",
            "BreakoutDeterministic-v4",
            "BreakoutDeterministic-v4",
            "BreakoutDeterministic-v4",
            "BreakoutDeterministic-v4",
            "BreakoutDeterministic-v4",
            "BreakoutDeterministic-v4",
            "BreakoutDeterministic-v4",
            "BreakoutDeterministic-v4",
            "BreakoutDeterministic-v4"],
	"available_action": [4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4],
        "batch_size": 32,
        "queue_size": 32,
        "model_input": [84, 84, 4],
        "model_output": 4,
        "reward_clipping": "abs_one",
        "trajectory": 32,
        "start_learning_rate": 1e-4,
        "end_learning_rate": 0.0,
        "learning_frame": 100000000000000,
        "gradient_clip_norm": 40.0,
        "discount_factor": 0.99,
        "optimization_method": "apex"
    }
}