Spaces:

huggingface-projects
/

Deep-Reinforcement-Learning-Leaderboard

Running on CPU Upgrade

chrisjay commited on May 22, 2022

Commit

b9ceb4f

1 Parent(s): 6843958

fix to nan issue in mean and std reward

Files changed (2) hide show

app.py CHANGED Viewed

@@ -48,6 +48,8 @@ def get_data(rl_env):
         row["Model"] = model_id
         accuracy = parse_metrics_accuracy(meta)
         mean_reward, std_reward = parse_rewards(accuracy)
         row["Results"] = mean_reward - std_reward
         row["Mean Reward"] = mean_reward
         row["Std Reward"] = std_reward
@@ -113,6 +115,9 @@ def update_data(rl_env):
         row["Model"] = model_id
         accuracy = parse_metrics_accuracy(meta)
         mean_reward, std_reward = parse_rewards(accuracy)
         row["Results"] = mean_reward - std_reward
         row["Mean Reward"] = mean_reward
         row["Std Reward"] = std_reward

         row["Model"] = model_id
         accuracy = parse_metrics_accuracy(meta)
         mean_reward, std_reward = parse_rewards(accuracy)
+        mean_reward = mean_reward if not pd.isna(mean_reward) else 0
+        std_reward = std_reward if not pd.isna(std_reward) else 0
         row["Results"] = mean_reward - std_reward
         row["Mean Reward"] = mean_reward
         row["Std Reward"] = std_reward
         row["Model"] = model_id
         accuracy = parse_metrics_accuracy(meta)
         mean_reward, std_reward = parse_rewards(accuracy)
+        mean_reward = mean_reward if not pd.isna(mean_reward) else 0
+        std_reward = std_reward if not pd.isna(std_reward) else 0
         row["Results"] = mean_reward - std_reward
         row["Mean Reward"] = mean_reward
         row["Std Reward"] = std_reward

utils.py CHANGED Viewed

@@ -53,11 +53,11 @@ def parse_rewards(accuracy):
             mean_reward = float(parsed[0])
             std_reward =  float(parsed[1])
         else:
-            mean_reward = default_std
-            std_reward = default_reward
     else:
-        mean_reward = default_std
-        std_reward = default_reward
     return mean_reward, std_reward

             mean_reward = float(parsed[0])
             std_reward =  float(parsed[1])
         else:
+            mean_reward = float(default_std)
+            std_reward = float(default_reward)
     else:
+        mean_reward = float(default_std)
+        std_reward = float(default_reward)
     return mean_reward, std_reward