zhjngli
diff --git a/‎src/__main__.py
Lines changed: 7 additions & 7 deletions b/‎src/__main__.py
Lines changed: 7 additions & 7 deletions
diff --git a/‎src/digit_party/__init__.py renamed to ‎src/games/digit_party/__init__.py b/‎src/digit_party/__init__.py renamed to ‎src/games/digit_party/__init__.py
diff --git a/‎src/digit_party/data.py renamed to ‎src/games/digit_party/data.py b/‎src/digit_party/data.py renamed to ‎src/games/digit_party/data.py
diff --git a/‎src/digit_party/digit_party.py renamed to ‎src/games/digit_party/digit_party.py
Lines changed: 2 additions & 2 deletions b/‎src/digit_party/digit_party.py renamed to ‎src/games/digit_party/digit_party.py
Lines changed: 2 additions & 2 deletions
diff --git a/‎src/digit_party/q-3x3.png renamed to ‎src/games/digit_party/q-3x3.png b/‎src/digit_party/q-3x3.png renamed to ‎src/games/digit_party/q-3x3.png
diff --git a/‎src/random_walk/__init__.py renamed to ‎src/games/random_walk/__init__.py b/‎src/random_walk/__init__.py renamed to ‎src/games/random_walk/__init__.py
diff --git a/‎src/random_walk/random_walk.py renamed to ‎src/games/random_walk/random_walk.py
Lines changed: 2 additions & 2 deletions b/‎src/random_walk/random_walk.py renamed to ‎src/games/random_walk/random_walk.py
Lines changed: 2 additions & 2 deletions
diff --git a/‎src/tictactoe/__init__.py renamed to ‎src/games/tictactoe/__init__.py b/‎src/tictactoe/__init__.py renamed to ‎src/games/tictactoe/__init__.py
diff --git a/‎src/tictactoe/tictactoe.py renamed to ‎src/games/tictactoe/tictactoe.py
Lines changed: 4 additions & 4 deletions b/‎src/tictactoe/tictactoe.py renamed to ‎src/games/tictactoe/tictactoe.py
Lines changed: 4 additions & 4 deletions
diff --git a/‎src/tictactoe/ultimate.py renamed to ‎src/games/tictactoe/ultimate.py
Lines changed: 2 additions & 2 deletions b/‎src/tictactoe/ultimate.py renamed to ‎src/games/tictactoe/ultimate.py
Lines changed: 2 additions & 2 deletions
diff --git a/‎src/learners/alpha_zero/monte_carlo_tree_search.py
Lines changed: 1 addition & 1 deletion b/‎src/learners/alpha_zero/monte_carlo_tree_search.py
Lines changed: 1 addition & 1 deletion
@@ -1,21 +1,21 @@
-# from digit_party.digit_party import human_game as digit_party_human_game
-# from digit_party.digit_party import many_trained_games as digit_party_many_trained_games
-# from digit_party.digit_party import trained_game as digit_party_trained_game
+# from games.digit_party.digit_party import human_game as digit_party_human_game
+# from games.digit_party.digit_party import many_trained_games as digit_party_many_trained_games
+# from games.digit_party.digit_party import trained_game as digit_party_trained_game
 
 # digit_party_human_game()
 # digit_party_trained_game(game_size=3)
 # digit_party_many_trained_games(game_size=3)
 
-# from random_walk.random_walk import q_trained_game as random_walk_trained_game
+# from games.random_walk.random_walk import q_trained_game as random_walk_trained_game
 
 # random_walk_trained_game()
 
-# from tictactoe.tictactoe import monte_carlo_many_games as ttt_mc_many_games
-# from tictactoe.tictactoe import monte_carlo_trained_game as ttt_mc_trained_game
+# from games.tictactoe.tictactoe import monte_carlo_many_games as ttt_mc_many_games
+# from games.tictactoe.tictactoe import monte_carlo_trained_game as ttt_mc_trained_game
 
 # ttt_mc_trained_game(training_episodes=0)
 # ttt_mc_many_games()
 
-from tictactoe.ultimate import trained_game
+from games.tictactoe.ultimate import trained_game
 
 trained_game()
@@ -346,7 +346,7 @@ def trained_game(game_size: int) -> None:
     # for a 2x2 game, the result is trivially 100%
     q = DigitPartyQLearner(
         game_size,
-        q_pickle=f"src/digit_party/q-{game_size}x{game_size}.pkl",
+        q_pickle=f"src/games/digit_party/q-{game_size}x{game_size}.pkl",
         epsilon=0.5,
     )
     g = DigitPartyQTrainer(player=q, n=game_size)
@@ -370,7 +370,7 @@ def trained_game(game_size: int) -> None:
 
 def many_trained_games(game_size: int, games=10000) -> None:
     q = DigitPartyQLearner(
-        game_size, q_pickle=f"src/digit_party/q-{game_size}x{game_size}.pkl"
+        game_size, q_pickle=f"src/games/digit_party/q-{game_size}x{game_size}.pkl"
     )
     g = DigitPartyQTrainer(player=q, n=game_size)
 
 
@@ -114,7 +114,7 @@ def train_once(self) -> None:
 
 
 def q_trained_game() -> None:
-    pkl_file = "src/random_walk/q.pkl"
+    pkl_file = "src/games/random_walk/q.pkl"
     q = RandomWalkQLearner(epsilon=0.5, q_pickle=pkl_file)
     g = RandomWalkQTrainer(player=q)
     g.train()
@@ -173,7 +173,7 @@ def train_once(self) -> None:
 
 
 def monte_carlo_trained_game(training_episodes=10000):
-    policy_pkl = "src/random_walk/monte_carlo_player.pkl"
+    policy_pkl = "src/games/random_walk/monte_carlo_player.pkl"
     p = RandomWalkMonteCarloLearner(policy_file=policy_pkl)
     g = RandomWalkMonteCarloTrainer(p)
     g.train(episodes=training_episodes)
 
@@ -395,8 +395,8 @@ def _many_games(
     print(f"{ties} ties")
 
 
-MCP1_POLICY = "src/tictactoe/mcp1.pkl"
-MCP2_POLICY = "src/tictactoe/mcp2.pkl"
+MCP1_POLICY = "src/games/tictactoe/mcp1.pkl"
+MCP2_POLICY = "src/games/tictactoe/mcp2.pkl"
 
 
 def monte_carlo_trained_game(training_episodes=0):
@@ -416,8 +416,8 @@ def monte_carlo_many_games(games=10000):
     _many_games(g, computer1, computer2, games)
 
 
-QP1_POLICY = "src/tictactoe/qp1.pkl"
-QP2_POLICY = "src/tictactoe/qp2.pkl"
+QP1_POLICY = "src/games/tictactoe/qp1.pkl"
+QP2_POLICY = "src/games/tictactoe/qp2.pkl"
 
 
 def q_trained_game(training_episodes=0):
 
@@ -423,8 +423,8 @@ def apply(
         return UltimateTicTacToe.apply(state, action)
 
 
-MCP1_POLICY = "src/tictactoe/ultimate-mcp1.pkl"
-MCP2_POLICY = "src/tictactoe/ultimate-mcp2.pkl"
+MCP1_POLICY = "src/games/tictactoe/ultimate-mcp1.pkl"
+MCP2_POLICY = "src/games/tictactoe/ultimate-mcp2.pkl"
 
 
 def trained_game():
 
@@ -98,7 +98,7 @@ def search(self, state: State) -> float:
         best_a = -1
 
         # find the action with the highest upper confidence bound u
-        # u(s, a) = q(s, q) + c_puct * pi(s, a) * sqrt(sum all actions b: (N(s, b)) / (1 + N(s, a))
+        # u(s, a) = q(s, a) + c_puct * pi(s, a) * sqrt(sum all actions b: (N(s, b)) / (1 + N(s, a))
         for a in range(self.game.num_actions()):
             if valids[a]:
                 if (ir, a) in self.q: