It is alive

Tesla2000 · Tesla2000 · commit 632fc3c17fe3 · 2024-03-08T19:16:40.000+01:00
diff --git a/.gitignore b/.gitignore
@@ -1 +1,3 @@
 /sandbox.py
+/data/
+/models/
diff --git a/Config.py b/Config.py
@@ -30,7 +30,7 @@ class Config(_ConfigPaths, _ConfigAgent):
     train_batch_size = 64
     training_buffer_len = 1000
     min_n_points_to_finish = 15
-    n_simulations = 250
+    n_simulations = 100
     n_games = None
     n_players = 2
     n_actions = 46
diff --git a/main.py b/main.py
@@ -1,7 +1,7 @@
 import re
 from collections import deque
 from copy import deepcopy
-from itertools import count
+from itertools import count, islice
 from pathlib import Path
 
 import torch
@@ -16,19 +16,28 @@ def main():
     training_buffer = deque(maxlen=Config.training_buffer_len)
     agents = deque((Agent(Config.n_players) for _ in range(Config.n_players)), maxlen=Config.n_players)
     if Config.pretrain:
+        for agent, checkpoint_index in zip(islice(reversed(agents), 1, None), sorted((int(path.name.split('.')[0]) for path in Config.model_path.iterdir()), reverse=True)):
+            agent.load_state_dict(torch.load(Config.model_path.joinpath(f'{checkpoint_index}.pth')))
+        agents[-1].load_state_dict(torch.load(Config.model_path.joinpath(f"{max(int(path.name.split('.')[0]) for path in Config.model_path.iterdir())}.pth")))
         training_buffer += list(map(eval, map(Path.read_text, sorted(Config.data_path.iterdir(), key=lambda path: int(path.name), reverse=True)[:Config.training_buffer_len])))
         train_agent(agents[-1], training_buffer)
     scores = deque(maxlen=Config.max_results_held)
     for _ in (count() if Config.n_games is None else range(Config.n_games)):
         buffer, winner = self_play(agents)
-        Config.data_path.joinpath(str(max((*tuple(int(path.name) for path in Config.data_path.iterdir()), -1)) + 1)).write_text(str((list(buffer[0][0]), list(buffer[0][1]), buffer[0][2])))
+        start_index = max((*tuple(int(path.name) for path in Config.data_path.iterdir()), -1)) + 1
+        for start_index, sample in enumerate(buffer, start_index + 1):
+            Config.data_path.joinpath(str(start_index)).write_text(str((list(sample[0]), list(sample[1]), sample[2])))
         scores.append(agents[-1] is winner)
-        if len(scores) >= Config.min_games_to_replace_agents and sum(scores) > Config.minimal_relative_agent_improvement * len(scores) / len(agents):
+        if (len(scores) < Config.min_games_to_replace_agents and sum(scores) >= Config.minimal_relative_agent_improvement * Config.min_games_to_replace_agents / len(agents)) or (len(scores) >= Config.min_games_to_replace_agents and sum(scores) >= Config.minimal_relative_agent_improvement * len(scores) / len(agents)):
             torch.save(agents[-1].state_dict(), Config.model_path.joinpath(str(max(map(int, (*re.findall(r'\d+', ''.join(map(str, Config.model_path.iterdir()))), -1))) + 1) + ".pth"))
-            agents.append(Agent(Config.n_players).load_state_dict(deepcopy(agents[-1].state_dict())))
+            agents.append(Agent(Config.n_players))
+            agents[-1].load_state_dict(deepcopy(agents[-1].state_dict()))
             agents[-1].training = True
             scores = deque(maxlen=Config.max_results_held)
-        print(sum(scores) / len(scores), len(scores))
+        elif len(scores) >= Config.min_games_to_replace_agents:
+            print(f'{len(scores)} {sum(scores) / len(scores):.2f}')
+        else:
+            print(f'{len(scores)} {sum(scores)}/{len(scores)}')
         training_buffer += buffer
         train_agent(agents[-1], training_buffer)
 

Original file line number	Diff line number	Diff line change
`@@ -1 +1,3 @@`
`1`	`1`	`/sandbox.py`
	`2`	`+/data/`
	`3`	`+/models/`