zhtw-reasoning-eval-leaderboard

Sleeping

App Files Files Community

lewtun HF Staff commited on Mar 14, 2024

Commit

8ea545e

1 Parent(s): 599688f

Merge evals

Browse files

Files changed (2) hide show

app.py +15 -3
debug.ipynb +458 -110

app.py CHANGED Viewed

@@ -11,7 +11,7 @@ Evaluation of H4 and community models across a diverse range of benchmarks from
 """
-def get_leaderboard_df():
     filepaths = list(Path("eval_results").rglob("*.json"))
     # Parse filepaths to get unique models
@@ -66,11 +66,17 @@ def get_leaderboard_df():
     df = df.reset_index().rename(columns={"index": "Model"}).round(2)
     # Strip off date from model name
     df["Model"] = df["Model"].apply(lambda x: x.rsplit("_", 1)[0])
     return df
-def refresh():
-    return get_leaderboard_df()
 # Function to update the table based on search query
@@ -94,11 +100,17 @@ with demo:
         gr.Markdown(DESCRIPTION, elem_classes="markdown-text")
         with gr.Row():
             search_bar = gr.Textbox(placeholder="Search for your model...", show_label=False)
         with gr.Group():
             leaderboard_table = gr.Dataframe(value=leaderboard_df, wrap=True, height=1000)
         with gr.Row():
             refresh_button = gr.Button("Refresh")
     search_bar.submit(update_table, inputs=[search_bar], outputs=[leaderboard_table])
     refresh_button.click(refresh, inputs=[], outputs=[leaderboard_table])

 """
+def get_leaderboard_df(merge_values: bool = False):
     filepaths = list(Path("eval_results").rglob("*.json"))
     # Parse filepaths to get unique models
     df = df.reset_index().rename(columns={"index": "Model"}).round(2)
     # Strip off date from model name
     df["Model"] = df["Model"].apply(lambda x: x.rsplit("_", 1)[0])
+    if merge_values:
+        merged_df = df.drop(["Date", "Average"], axis=1).groupby("Model").max().reset_index()
+        merged_df.insert(loc=0, column="Average", value=merged_df.mean(axis=1, numeric_only=True))
+        merged_df = merged_df.sort_values(by=["Average"], ascending=False).round(2)
+        df = df[["Model", "Date"]].merge(merged_df, on="Model", how="left")
     return df
+def refresh(merge_values: bool = False):
+    return get_leaderboard_df(merge_values)
 # Function to update the table based on search query
         gr.Markdown(DESCRIPTION, elem_classes="markdown-text")
         with gr.Row():
             search_bar = gr.Textbox(placeholder="Search for your model...", show_label=False)
+            merge_values = gr.Checkbox(
+                label="Merge evals",
+                info="Merge evals for the same model. If there are duplicates, we display the largest one.",
+            )
         with gr.Group():
+            leaderboard_df = get_leaderboard_df()
             leaderboard_table = gr.Dataframe(value=leaderboard_df, wrap=True, height=1000)
         with gr.Row():
             refresh_button = gr.Button("Refresh")
+    merge_values.change(refresh, inputs=[merge_values], outputs=[leaderboard_table])
     search_bar.submit(update_table, inputs=[search_bar], outputs=[leaderboard_table])
     refresh_button.click(refresh, inputs=[], outputs=[leaderboard_table])

debug.ipynb CHANGED Viewed

@@ -2,7 +2,7 @@
  "cells": [
   {
    "cell_type": "code",
-   "execution_count": 1,
    "metadata": {},
    "outputs": [],
    "source": [
@@ -15,7 +15,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 51,
    "metadata": {},
    "outputs": [],
    "source": [
@@ -44,18 +44,34 @@
     "            data = json.load(file)\n",
     "            first_result_key = next(iter(data[\"results\"]))  # gets the first key in 'results'\n",
     "            # TruthfulQA has two metrics, so we need to pick the `mc2` one that's reported on the leaderboard\n",
-    "            if task == \"truthfulqa\":\n",
     "                value = data[\"results\"][first_result_key][\"truthfulqa_mc2\"]\n",
     "            else:\n",
-    "                first_metric_key = next(iter(data[\"results\"][first_result_key]))  # gets the first key in the first result\n",
     "                value = data[\"results\"][first_result_key][first_metric_key]  # gets the value of the first metric\n",
     "            df.loc[model_revision, task] = value\n",
-    " \n",
     "    # Drop rows where every entry is NaN\n",
     "    df = df.dropna(how=\"all\", axis=0, subset=[c for c in df.columns if c != \"Date\"])\n",
     "    df.insert(loc=1, column=\"Average\", value=df.mean(axis=1, numeric_only=True))\n",
     "    df = df.sort_values(by=[\"Average\"], ascending=False)\n",
-    "    df = df.reset_index().rename(columns={\"index\": \"Model\"}).round(3)\n",
     "    # Strip off date from model name\n",
     "    df[\"Model\"] = df[\"Model\"].apply(lambda x: x.rsplit(\"_\", 1)[0])\n",
     "    return df"
@@ -63,7 +79,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 52,
    "metadata": {},
    "outputs": [],
    "source": [
@@ -72,7 +88,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 53,
    "metadata": {},
    "outputs": [
     {
@@ -111,68 +127,68 @@
        "  <tbody>\n",
        "    <tr>\n",
        "      <th>0</th>\n",
-       "      <td>NousResearch_Nous-Hermes-2-Mixtral-8x7B-DPO_main</td>\n",
-       "      <td>2024-03-02</td>\n",
-       "      <td>0.617</td>\n",
-       "      <td>0.553</td>\n",
-       "      <td>0.477</td>\n",
-       "      <td>0.785</td>\n",
-       "      <td>0.622</td>\n",
-       "      <td>0.51</td>\n",
-       "      <td>0.677</td>\n",
-       "      <td>0.698</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>1</th>\n",
-       "      <td>NousResearch_Nous-Hermes-2-Yi-34B_main</td>\n",
-       "      <td>2024-03-04</td>\n",
-       "      <td>0.604</td>\n",
        "      <td>NaN</td>\n",
-       "      <td>0.439</td>\n",
-       "      <td>0.806</td>\n",
        "      <td>NaN</td>\n",
-       "      <td>0.48</td>\n",
-       "      <td>0.640</td>\n",
-       "      <td>0.654</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>2</th>\n",
-       "      <td>mistralai_Mixtral-8x7B-Instruct-v0.1_main</td>\n",
        "      <td>2024-03-02</td>\n",
-       "      <td>0.603</td>\n",
-       "      <td>0.497</td>\n",
-       "      <td>0.554</td>\n",
-       "      <td>0.736</td>\n",
-       "      <td>0.599</td>\n",
-       "      <td>0.43</td>\n",
-       "      <td>0.709</td>\n",
-       "      <td>0.698</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>3</th>\n",
-       "      <td>deepseek-ai_deepseek-llm-67b-chat_main</td>\n",
-       "      <td>2024-03-04</td>\n",
-       "      <td>0.603</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>0.395</td>\n",
-       "      <td>0.792</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>0.622</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>4</th>\n",
        "      <td>deepseek-ai_deepseek-llm-67b-chat_main</td>\n",
-       "      <td>2024-03-05</td>\n",
-       "      <td>0.585</td>\n",
-       "      <td>0.505</td>\n",
        "      <td>NaN</td>\n",
        "      <td>NaN</td>\n",
-       "      <td>0.761</td>\n",
-       "      <td>0.42</td>\n",
-       "      <td>0.654</td>\n",
        "      <td>NaN</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>...</th>\n",
@@ -191,11 +207,11 @@
        "      <th>269</th>\n",
        "      <td>HuggingFaceH4_starcoder2-15b-ift_v18.0</td>\n",
        "      <td>2024-03-10</td>\n",
-       "      <td>0.089</td>\n",
-       "      <td>0.170</td>\n",
        "      <td>NaN</td>\n",
        "      <td>NaN</td>\n",
-       "      <td>0.008</td>\n",
        "      <td>NaN</td>\n",
        "      <td>NaN</td>\n",
        "      <td>NaN</td>\n",
@@ -204,11 +220,11 @@
        "      <th>270</th>\n",
        "      <td>HuggingFaceH4_mistral-7b-ift_v49.0</td>\n",
        "      <td>2024-03-07</td>\n",
-       "      <td>0.086</td>\n",
-       "      <td>0.172</td>\n",
        "      <td>NaN</td>\n",
        "      <td>NaN</td>\n",
-       "      <td>0.000</td>\n",
        "      <td>NaN</td>\n",
        "      <td>NaN</td>\n",
        "      <td>NaN</td>\n",
@@ -217,8 +233,8 @@
        "      <th>271</th>\n",
        "      <td>HuggingFaceH4_starchat-beta_main</td>\n",
        "      <td>2024-03-12</td>\n",
-       "      <td>0.079</td>\n",
-       "      <td>0.079</td>\n",
        "      <td>NaN</td>\n",
        "      <td>NaN</td>\n",
        "      <td>NaN</td>\n",
@@ -230,11 +246,11 @@
        "      <th>272</th>\n",
        "      <td>HuggingFaceH4_starcoder2-15b-ift_v7.0</td>\n",
        "      <td>2024-03-10</td>\n",
-       "      <td>0.070</td>\n",
-       "      <td>0.107</td>\n",
        "      <td>NaN</td>\n",
        "      <td>NaN</td>\n",
-       "      <td>0.032</td>\n",
        "      <td>NaN</td>\n",
        "      <td>NaN</td>\n",
        "      <td>NaN</td>\n",
@@ -243,11 +259,11 @@
        "      <th>273</th>\n",
        "      <td>HuggingFaceH4_zephyr-7b-beta-ift_v1.1</td>\n",
        "      <td>2024-03-13</td>\n",
-       "      <td>0.043</td>\n",
-       "      <td>0.087</td>\n",
        "      <td>NaN</td>\n",
        "      <td>NaN</td>\n",
-       "      <td>0.000</td>\n",
        "      <td>NaN</td>\n",
        "      <td>NaN</td>\n",
        "      <td>NaN</td>\n",
@@ -259,35 +275,35 @@
       ],
       "text/plain": [
        "                                                Model        Date  Average  \\\n",
-       "0    NousResearch_Nous-Hermes-2-Mixtral-8x7B-DPO_main  2024-03-02    0.617   \n",
-       "1              NousResearch_Nous-Hermes-2-Yi-34B_main  2024-03-04    0.604   \n",
-       "2           mistralai_Mixtral-8x7B-Instruct-v0.1_main  2024-03-02    0.603   \n",
-       "3              deepseek-ai_deepseek-llm-67b-chat_main  2024-03-04    0.603   \n",
-       "4              deepseek-ai_deepseek-llm-67b-chat_main  2024-03-05    0.585   \n",
        "..                                                ...         ...      ...   \n",
-       "269            HuggingFaceH4_starcoder2-15b-ift_v18.0  2024-03-10    0.089   \n",
-       "270                HuggingFaceH4_mistral-7b-ift_v49.0  2024-03-07    0.086   \n",
-       "271                  HuggingFaceH4_starchat-beta_main  2024-03-12    0.079   \n",
-       "272             HuggingFaceH4_starcoder2-15b-ift_v7.0  2024-03-10    0.070   \n",
-       "273             HuggingFaceH4_zephyr-7b-beta-ift_v1.1  2024-03-13    0.043   \n",
        "\n",
-       "     Ifeval  Truthfulqa  Winogrande  Gsm8k  Mmlu  Hellaswag    Arc  \n",
-       "0     0.553       0.477       0.785  0.622  0.51      0.677  0.698  \n",
-       "1       NaN       0.439       0.806    NaN  0.48      0.640  0.654  \n",
-       "2     0.497       0.554       0.736  0.599  0.43      0.709  0.698  \n",
-       "3       NaN       0.395       0.792    NaN   NaN        NaN  0.622  \n",
-       "4     0.505         NaN         NaN  0.761  0.42      0.654    NaN  \n",
-       "..      ...         ...         ...    ...   ...        ...    ...  \n",
-       "269   0.170         NaN         NaN  0.008   NaN        NaN    NaN  \n",
-       "270   0.172         NaN         NaN  0.000   NaN        NaN    NaN  \n",
-       "271   0.079         NaN         NaN    NaN   NaN        NaN    NaN  \n",
-       "272   0.107         NaN         NaN  0.032   NaN        NaN    NaN  \n",
-       "273   0.087         NaN         NaN  0.000   NaN        NaN    NaN  \n",
        "\n",
        "[274 rows x 10 columns]"
       ]
      },
-     "execution_count": 53,
      "metadata": {},
      "output_type": "execute_result"
     }
@@ -298,7 +314,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 32,
    "metadata": {},
    "outputs": [
     {
@@ -323,7 +339,6 @@
        "    <tr style=\"text-align: right;\">\n",
        "      <th></th>\n",
        "      <th>Model</th>\n",
-       "      <th>Average</th>\n",
        "      <th>Ifeval</th>\n",
        "      <th>Truthfulqa</th>\n",
        "      <th>Winogrande</th>\n",
@@ -335,50 +350,383 @@
        "  </thead>\n",
        "  <tbody>\n",
        "    <tr>\n",
-       "      <th>50</th>\n",
-       "      <td>HuggingFaceH4_mistral-7b-ift_v48.56_2024-03-08</td>\n",
-       "      <td>0.49</td>\n",
-       "      <td>0.418</td>\n",
-       "      <td>0.359</td>\n",
-       "      <td>0.672</td>\n",
-       "      <td>0.453</td>\n",
-       "      <td>0.33</td>\n",
-       "      <td>0.656</td>\n",
-       "      <td>0.545</td>\n",
        "    </tr>\n",
        "    <tr>\n",
-       "      <th>532</th>\n",
-       "      <td>HuggingFaceH4_mistral-7b-ift_v48.56</td>\n",
        "      <td>NaN</td>\n",
        "      <td>NaN</td>\n",
        "      <td>NaN</td>\n",
        "      <td>NaN</td>\n",
        "      <td>NaN</td>\n",
        "      <td>NaN</td>\n",
        "      <td>NaN</td>\n",
        "      <td>NaN</td>\n",
        "    </tr>\n",
        "  </tbody>\n",
        "</table>\n",
        "</div>"
       ],
       "text/plain": [
-       "                                              Model  Average  Ifeval  \\\n",
-       "50   HuggingFaceH4_mistral-7b-ift_v48.56_2024-03-08     0.49   0.418   \n",
-       "532             HuggingFaceH4_mistral-7b-ift_v48.56      NaN     NaN   \n",
        "\n",
-       "     Truthfulqa  Winogrande  Gsm8k  Mmlu  Hellaswag    Arc  \n",
-       "50        0.359       0.672  0.453  0.33      0.656  0.545  \n",
-       "532         NaN         NaN    NaN   NaN        NaN    NaN  "
       ]
      },
-     "execution_count": 32,
      "metadata": {},
      "output_type": "execute_result"
     }
    ],
    "source": [
-    "df[df['Model'].str.contains(\"HuggingFaceH4_mistral-7b-ift_v48.56\")]"
    ]
   },
   {

  "cells": [
   {
    "cell_type": "code",
+   "execution_count": 2,
    "metadata": {},
    "outputs": [],
    "source": [
   },
   {
    "cell_type": "code",
+   "execution_count": 3,
    "metadata": {},
    "outputs": [],
    "source": [
     "            data = json.load(file)\n",
     "            first_result_key = next(iter(data[\"results\"]))  # gets the first key in 'results'\n",
     "            # TruthfulQA has two metrics, so we need to pick the `mc2` one that's reported on the leaderboard\n",
+    "            if task.lower() == \"truthfulqa\":\n",
     "                value = data[\"results\"][first_result_key][\"truthfulqa_mc2\"]\n",
+    "            # IFEval has several metrics but we report just the prompt-loose-acc one\n",
+    "            elif task.lower() == \"ifeval\":\n",
+    "                value = data[\"results\"][first_result_key][\"prompt_level_loose_acc\"]\n",
+    "            # MMLU has several metrics but we report just the average one\n",
+    "            elif task.lower() == \"mmlu\":\n",
+    "                value = data[\"results\"][\"lighteval|mmlu:_average|5\"][\"acc\"]\n",
+    "            # HellaSwag and ARC reports acc_norm\n",
+    "            elif task.lower() in [\"hellaswag\", \"arc\"]:\n",
+    "                value = data[\"results\"][first_result_key][\"acc_norm\"]\n",
     "            else:\n",
+    "                first_metric_key = next(\n",
+    "                    iter(data[\"results\"][first_result_key])\n",
+    "                )  # gets the first key in the first result\n",
     "                value = data[\"results\"][first_result_key][first_metric_key]  # gets the value of the first metric\n",
     "            df.loc[model_revision, task] = value\n",
+    "\n",
+    "    # Put IFEval in first column\n",
+    "    ifeval_col = df.pop(\"Ifeval\")\n",
+    "    df.insert(1, \"Ifeval\", ifeval_col)\n",
     "    # Drop rows where every entry is NaN\n",
     "    df = df.dropna(how=\"all\", axis=0, subset=[c for c in df.columns if c != \"Date\"])\n",
     "    df.insert(loc=1, column=\"Average\", value=df.mean(axis=1, numeric_only=True))\n",
+    "    # Convert all values to percentage\n",
+    "    df[df.select_dtypes(include=[\"number\"]).columns] *= 100.0\n",
     "    df = df.sort_values(by=[\"Average\"], ascending=False)\n",
+    "    df = df.reset_index().rename(columns={\"index\": \"Model\"}).round(2)\n",
     "    # Strip off date from model name\n",
     "    df[\"Model\"] = df[\"Model\"].apply(lambda x: x.rsplit(\"_\", 1)[0])\n",
     "    return df"
   },
   {
    "cell_type": "code",
+   "execution_count": 4,
    "metadata": {},
    "outputs": [],
    "source": [
   },
   {
    "cell_type": "code",
+   "execution_count": 5,
    "metadata": {},
    "outputs": [
     {
        "  <tbody>\n",
        "    <tr>\n",
        "      <th>0</th>\n",
+       "      <td>NousResearch_Nous-Hermes-2-Yi-34B_main</td>\n",
+       "      <td>2024-03-04</td>\n",
+       "      <td>74.01</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>61.44</td>\n",
+       "      <td>80.58</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>76.24</td>\n",
+       "      <td>83.79</td>\n",
+       "      <td>68.00</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>1</th>\n",
+       "      <td>deepseek-ai_deepseek-llm-67b-chat_main</td>\n",
+       "      <td>2024-03-05</td>\n",
+       "      <td>71.62</td>\n",
+       "      <td>55.27</td>\n",
+       "      <td>NaN</td>\n",
        "      <td>NaN</td>\n",
+       "      <td>76.12</td>\n",
+       "      <td>71.18</td>\n",
+       "      <td>83.94</td>\n",
        "      <td>NaN</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>2</th>\n",
+       "      <td>NousResearch_Nous-Hermes-2-Mixtral-8x7B-DPO_main</td>\n",
        "      <td>2024-03-02</td>\n",
+       "      <td>70.43</td>\n",
+       "      <td>59.33</td>\n",
+       "      <td>64.76</td>\n",
+       "      <td>78.53</td>\n",
+       "      <td>62.17</td>\n",
+       "      <td>71.96</td>\n",
+       "      <td>85.42</td>\n",
+       "      <td>70.82</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>3</th>\n",
+       "      <td>mistralai_Mixtral-8x7B-Instruct-v0.1_main</td>\n",
+       "      <td>2024-03-02</td>\n",
+       "      <td>69.80</td>\n",
+       "      <td>55.08</td>\n",
+       "      <td>70.79</td>\n",
+       "      <td>73.56</td>\n",
+       "      <td>59.89</td>\n",
+       "      <td>70.60</td>\n",
+       "      <td>86.68</td>\n",
+       "      <td>72.01</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>4</th>\n",
        "      <td>deepseek-ai_deepseek-llm-67b-chat_main</td>\n",
+       "      <td>2024-03-04</td>\n",
+       "      <td>67.03</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>57.78</td>\n",
+       "      <td>79.16</td>\n",
        "      <td>NaN</td>\n",
        "      <td>NaN</td>\n",
        "      <td>NaN</td>\n",
+       "      <td>64.16</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>...</th>\n",
        "      <th>269</th>\n",
        "      <td>HuggingFaceH4_starcoder2-15b-ift_v18.0</td>\n",
        "      <td>2024-03-10</td>\n",
+       "      <td>11.23</td>\n",
+       "      <td>21.63</td>\n",
        "      <td>NaN</td>\n",
        "      <td>NaN</td>\n",
+       "      <td>0.83</td>\n",
        "      <td>NaN</td>\n",
        "      <td>NaN</td>\n",
        "      <td>NaN</td>\n",
        "      <th>270</th>\n",
        "      <td>HuggingFaceH4_mistral-7b-ift_v49.0</td>\n",
        "      <td>2024-03-07</td>\n",
+       "      <td>10.07</td>\n",
+       "      <td>20.15</td>\n",
        "      <td>NaN</td>\n",
        "      <td>NaN</td>\n",
+       "      <td>0.00</td>\n",
        "      <td>NaN</td>\n",
        "      <td>NaN</td>\n",
        "      <td>NaN</td>\n",
        "      <th>271</th>\n",
        "      <td>HuggingFaceH4_starchat-beta_main</td>\n",
        "      <td>2024-03-12</td>\n",
+       "      <td>8.13</td>\n",
+       "      <td>8.13</td>\n",
        "      <td>NaN</td>\n",
        "      <td>NaN</td>\n",
        "      <td>NaN</td>\n",
        "      <th>272</th>\n",
        "      <td>HuggingFaceH4_starcoder2-15b-ift_v7.0</td>\n",
        "      <td>2024-03-10</td>\n",
+       "      <td>7.88</td>\n",
+       "      <td>12.57</td>\n",
        "      <td>NaN</td>\n",
        "      <td>NaN</td>\n",
+       "      <td>3.18</td>\n",
        "      <td>NaN</td>\n",
        "      <td>NaN</td>\n",
        "      <td>NaN</td>\n",
        "      <th>273</th>\n",
        "      <td>HuggingFaceH4_zephyr-7b-beta-ift_v1.1</td>\n",
        "      <td>2024-03-13</td>\n",
+       "      <td>4.71</td>\n",
+       "      <td>9.43</td>\n",
        "      <td>NaN</td>\n",
        "      <td>NaN</td>\n",
+       "      <td>0.00</td>\n",
        "      <td>NaN</td>\n",
        "      <td>NaN</td>\n",
        "      <td>NaN</td>\n",
       ],
       "text/plain": [
        "                                                Model        Date  Average  \\\n",
+       "0              NousResearch_Nous-Hermes-2-Yi-34B_main  2024-03-04    74.01   \n",
+       "1              deepseek-ai_deepseek-llm-67b-chat_main  2024-03-05    71.62   \n",
+       "2    NousResearch_Nous-Hermes-2-Mixtral-8x7B-DPO_main  2024-03-02    70.43   \n",
+       "3           mistralai_Mixtral-8x7B-Instruct-v0.1_main  2024-03-02    69.80   \n",
+       "4              deepseek-ai_deepseek-llm-67b-chat_main  2024-03-04    67.03   \n",
        "..                                                ...         ...      ...   \n",
+       "269            HuggingFaceH4_starcoder2-15b-ift_v18.0  2024-03-10    11.23   \n",
+       "270                HuggingFaceH4_mistral-7b-ift_v49.0  2024-03-07    10.07   \n",
+       "271                  HuggingFaceH4_starchat-beta_main  2024-03-12     8.13   \n",
+       "272             HuggingFaceH4_starcoder2-15b-ift_v7.0  2024-03-10     7.88   \n",
+       "273             HuggingFaceH4_zephyr-7b-beta-ift_v1.1  2024-03-13     4.71   \n",
        "\n",
+       "     Ifeval  Truthfulqa  Winogrande  Gsm8k   Mmlu  Hellaswag    Arc  \n",
+       "0       NaN       61.44       80.58    NaN  76.24      83.79  68.00  \n",
+       "1     55.27         NaN         NaN  76.12  71.18      83.94    NaN  \n",
+       "2     59.33       64.76       78.53  62.17  71.96      85.42  70.82  \n",
+       "3     55.08       70.79       73.56  59.89  70.60      86.68  72.01  \n",
+       "4       NaN       57.78       79.16    NaN    NaN        NaN  64.16  \n",
+       "..      ...         ...         ...    ...    ...        ...    ...  \n",
+       "269   21.63         NaN         NaN   0.83    NaN        NaN    NaN  \n",
+       "270   20.15         NaN         NaN   0.00    NaN        NaN    NaN  \n",
+       "271    8.13         NaN         NaN    NaN    NaN        NaN    NaN  \n",
+       "272   12.57         NaN         NaN   3.18    NaN        NaN    NaN  \n",
+       "273    9.43         NaN         NaN   0.00    NaN        NaN    NaN  \n",
        "\n",
        "[274 rows x 10 columns]"
       ]
      },
+     "execution_count": 5,
      "metadata": {},
      "output_type": "execute_result"
     }
   },
   {
    "cell_type": "code",
+   "execution_count": 14,
    "metadata": {},
    "outputs": [
     {
        "    <tr style=\"text-align: right;\">\n",
        "      <th></th>\n",
        "      <th>Model</th>\n",
        "      <th>Ifeval</th>\n",
        "      <th>Truthfulqa</th>\n",
        "      <th>Winogrande</th>\n",
        "  </thead>\n",
        "  <tbody>\n",
        "    <tr>\n",
+       "      <th>0</th>\n",
+       "      <td>HuggingFaceH4_mistral-7b-ift_v41.0</td>\n",
+       "      <td>44.36</td>\n",
+       "      <td>49.35</td>\n",
+       "      <td>72.93</td>\n",
+       "      <td>37.30</td>\n",
+       "      <td>60.82</td>\n",
+       "      <td>79.70</td>\n",
+       "      <td>58.36</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>1</th>\n",
+       "      <td>HuggingFaceH4_mistral-7b-ift_v41.1</td>\n",
+       "      <td>47.32</td>\n",
+       "      <td>47.89</td>\n",
+       "      <td>72.69</td>\n",
+       "      <td>36.32</td>\n",
+       "      <td>60.34</td>\n",
+       "      <td>79.57</td>\n",
+       "      <td>57.51</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>2</th>\n",
+       "      <td>HuggingFaceH4_mistral-7b-ift_v41.10</td>\n",
+       "      <td>32.72</td>\n",
+       "      <td>51.05</td>\n",
+       "      <td>72.45</td>\n",
+       "      <td>25.93</td>\n",
+       "      <td>59.75</td>\n",
+       "      <td>81.92</td>\n",
+       "      <td>59.22</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>3</th>\n",
+       "      <td>HuggingFaceH4_mistral-7b-ift_v41.11</td>\n",
+       "      <td>37.89</td>\n",
+       "      <td>51.05</td>\n",
+       "      <td>64.56</td>\n",
+       "      <td>17.59</td>\n",
+       "      <td>57.60</td>\n",
+       "      <td>77.65</td>\n",
+       "      <td>55.89</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>4</th>\n",
+       "      <td>HuggingFaceH4_mistral-7b-ift_v41.12</td>\n",
+       "      <td>37.89</td>\n",
+       "      <td>45.94</td>\n",
+       "      <td>63.30</td>\n",
+       "      <td>21.15</td>\n",
+       "      <td>58.50</td>\n",
+       "      <td>74.94</td>\n",
+       "      <td>52.73</td>\n",
        "    </tr>\n",
        "    <tr>\n",
+       "      <th>...</th>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>258</th>\n",
+       "      <td>mistralai_Mistral-7B-Instruct-v0.2_main</td>\n",
+       "      <td>53.97</td>\n",
+       "      <td>70.68</td>\n",
+       "      <td>68.82</td>\n",
+       "      <td>38.13</td>\n",
+       "      <td>59.43</td>\n",
+       "      <td>83.45</td>\n",
+       "      <td>65.70</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>259</th>\n",
+       "      <td>mistralai_Mixtral-8x7B-Instruct-v0.1_main</td>\n",
+       "      <td>55.08</td>\n",
+       "      <td>70.79</td>\n",
+       "      <td>73.56</td>\n",
+       "      <td>59.89</td>\n",
+       "      <td>70.60</td>\n",
+       "      <td>86.68</td>\n",
+       "      <td>72.01</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>260</th>\n",
+       "      <td>openchat_openchat-3.5-0106_main</td>\n",
+       "      <td>54.71</td>\n",
+       "      <td>57.55</td>\n",
+       "      <td>72.53</td>\n",
+       "      <td>66.19</td>\n",
+       "      <td>63.72</td>\n",
+       "      <td>80.10</td>\n",
+       "      <td>61.01</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>261</th>\n",
+       "      <td>stabilityai_stablelm-zephyr-3b_main</td>\n",
+       "      <td>34.75</td>\n",
+       "      <td>46.19</td>\n",
+       "      <td>58.41</td>\n",
+       "      <td>40.18</td>\n",
+       "      <td>45.18</td>\n",
+       "      <td>71.57</td>\n",
+       "      <td>45.82</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>262</th>\n",
+       "      <td>teknium_OpenHermes-2.5-Mistral-7B_main</td>\n",
+       "      <td>52.68</td>\n",
+       "      <td>58.62</td>\n",
+       "      <td>72.14</td>\n",
+       "      <td>54.06</td>\n",
+       "      <td>63.01</td>\n",
+       "      <td>82.34</td>\n",
+       "      <td>62.97</td>\n",
+       "    </tr>\n",
+       "  </tbody>\n",
+       "</table>\n",
+       "<p>263 rows × 8 columns</p>\n",
+       "</div>"
+      ],
+      "text/plain": [
+       "                                         Model  Ifeval  Truthfulqa  \\\n",
+       "0           HuggingFaceH4_mistral-7b-ift_v41.0   44.36       49.35   \n",
+       "1           HuggingFaceH4_mistral-7b-ift_v41.1   47.32       47.89   \n",
+       "2          HuggingFaceH4_mistral-7b-ift_v41.10   32.72       51.05   \n",
+       "3          HuggingFaceH4_mistral-7b-ift_v41.11   37.89       51.05   \n",
+       "4          HuggingFaceH4_mistral-7b-ift_v41.12   37.89       45.94   \n",
+       "..                                         ...     ...         ...   \n",
+       "258    mistralai_Mistral-7B-Instruct-v0.2_main   53.97       70.68   \n",
+       "259  mistralai_Mixtral-8x7B-Instruct-v0.1_main   55.08       70.79   \n",
+       "260            openchat_openchat-3.5-0106_main   54.71       57.55   \n",
+       "261        stabilityai_stablelm-zephyr-3b_main   34.75       46.19   \n",
+       "262     teknium_OpenHermes-2.5-Mistral-7B_main   52.68       58.62   \n",
+       "\n",
+       "     Winogrande  Gsm8k   Mmlu  Hellaswag    Arc  \n",
+       "0         72.93  37.30  60.82      79.70  58.36  \n",
+       "1         72.69  36.32  60.34      79.57  57.51  \n",
+       "2         72.45  25.93  59.75      81.92  59.22  \n",
+       "3         64.56  17.59  57.60      77.65  55.89  \n",
+       "4         63.30  21.15  58.50      74.94  52.73  \n",
+       "..          ...    ...    ...        ...    ...  \n",
+       "258       68.82  38.13  59.43      83.45  65.70  \n",
+       "259       73.56  59.89  70.60      86.68  72.01  \n",
+       "260       72.53  66.19  63.72      80.10  61.01  \n",
+       "261       58.41  40.18  45.18      71.57  45.82  \n",
+       "262       72.14  54.06  63.01      82.34  62.97  \n",
+       "\n",
+       "[263 rows x 8 columns]"
+      ]
+     },
+     "execution_count": 14,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "new_df = df.drop([\"Date\", \"Average\"], axis=1).groupby(\"Model\").max().reset_index()\n",
+    "new_df"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 16,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/html": [
+       "<div>\n",
+       "<style scoped>\n",
+       "    .dataframe tbody tr th:only-of-type {\n",
+       "        vertical-align: middle;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe tbody tr th {\n",
+       "        vertical-align: top;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe thead th {\n",
+       "        text-align: right;\n",
+       "    }\n",
+       "</style>\n",
+       "<table border=\"1\" class=\"dataframe\">\n",
+       "  <thead>\n",
+       "    <tr style=\"text-align: right;\">\n",
+       "      <th></th>\n",
+       "      <th>Model</th>\n",
+       "      <th>Date</th>\n",
+       "      <th>Ifeval</th>\n",
+       "      <th>Truthfulqa</th>\n",
+       "      <th>Winogrande</th>\n",
+       "      <th>Gsm8k</th>\n",
+       "      <th>Mmlu</th>\n",
+       "      <th>Hellaswag</th>\n",
+       "      <th>Arc</th>\n",
+       "    </tr>\n",
+       "  </thead>\n",
+       "  <tbody>\n",
+       "    <tr>\n",
+       "      <th>0</th>\n",
+       "      <td>NousResearch_Nous-Hermes-2-Yi-34B_main</td>\n",
+       "      <td>2024-03-04</td>\n",
+       "      <td>39.00</td>\n",
+       "      <td>61.44</td>\n",
+       "      <td>80.58</td>\n",
+       "      <td>67.93</td>\n",
+       "      <td>76.24</td>\n",
+       "      <td>83.79</td>\n",
+       "      <td>68.00</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>1</th>\n",
+       "      <td>deepseek-ai_deepseek-llm-67b-chat_main</td>\n",
+       "      <td>2024-03-05</td>\n",
+       "      <td>55.27</td>\n",
+       "      <td>57.78</td>\n",
+       "      <td>79.16</td>\n",
+       "      <td>76.12</td>\n",
+       "      <td>71.18</td>\n",
+       "      <td>83.94</td>\n",
+       "      <td>64.16</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>2</th>\n",
+       "      <td>NousResearch_Nous-Hermes-2-Mixtral-8x7B-DPO_main</td>\n",
+       "      <td>2024-03-02</td>\n",
+       "      <td>59.33</td>\n",
+       "      <td>64.76</td>\n",
+       "      <td>78.53</td>\n",
+       "      <td>62.17</td>\n",
+       "      <td>71.96</td>\n",
+       "      <td>85.42</td>\n",
+       "      <td>70.82</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>3</th>\n",
+       "      <td>mistralai_Mixtral-8x7B-Instruct-v0.1_main</td>\n",
+       "      <td>2024-03-02</td>\n",
+       "      <td>55.08</td>\n",
+       "      <td>70.79</td>\n",
+       "      <td>73.56</td>\n",
+       "      <td>59.89</td>\n",
+       "      <td>70.60</td>\n",
+       "      <td>86.68</td>\n",
+       "      <td>72.01</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>4</th>\n",
+       "      <td>deepseek-ai_deepseek-llm-67b-chat_main</td>\n",
+       "      <td>2024-03-04</td>\n",
+       "      <td>55.27</td>\n",
+       "      <td>57.78</td>\n",
+       "      <td>79.16</td>\n",
+       "      <td>76.12</td>\n",
+       "      <td>71.18</td>\n",
+       "      <td>83.94</td>\n",
+       "      <td>64.16</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>...</th>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>269</th>\n",
+       "      <td>HuggingFaceH4_starcoder2-15b-ift_v18.0</td>\n",
+       "      <td>2024-03-10</td>\n",
+       "      <td>21.63</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>0.83</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>270</th>\n",
+       "      <td>HuggingFaceH4_mistral-7b-ift_v49.0</td>\n",
+       "      <td>2024-03-07</td>\n",
+       "      <td>20.15</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>0.00</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>271</th>\n",
+       "      <td>HuggingFaceH4_starchat-beta_main</td>\n",
+       "      <td>2024-03-12</td>\n",
+       "      <td>8.13</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>272</th>\n",
+       "      <td>HuggingFaceH4_starcoder2-15b-ift_v7.0</td>\n",
+       "      <td>2024-03-10</td>\n",
+       "      <td>12.57</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>3.18</td>\n",
        "      <td>NaN</td>\n",
        "      <td>NaN</td>\n",
        "      <td>NaN</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>273</th>\n",
+       "      <td>HuggingFaceH4_zephyr-7b-beta-ift_v1.1</td>\n",
+       "      <td>2024-03-13</td>\n",
+       "      <td>9.43</td>\n",
        "      <td>NaN</td>\n",
        "      <td>NaN</td>\n",
+       "      <td>0.00</td>\n",
        "      <td>NaN</td>\n",
        "      <td>NaN</td>\n",
        "      <td>NaN</td>\n",
        "    </tr>\n",
        "  </tbody>\n",
        "</table>\n",
+       "<p>274 rows × 9 columns</p>\n",
        "</div>"
       ],
       "text/plain": [
+       "                                                Model        Date  Ifeval  \\\n",
+       "0              NousResearch_Nous-Hermes-2-Yi-34B_main  2024-03-04   39.00   \n",
+       "1              deepseek-ai_deepseek-llm-67b-chat_main  2024-03-05   55.27   \n",
+       "2    NousResearch_Nous-Hermes-2-Mixtral-8x7B-DPO_main  2024-03-02   59.33   \n",
+       "3           mistralai_Mixtral-8x7B-Instruct-v0.1_main  2024-03-02   55.08   \n",
+       "4              deepseek-ai_deepseek-llm-67b-chat_main  2024-03-04   55.27   \n",
+       "..                                                ...         ...     ...   \n",
+       "269            HuggingFaceH4_starcoder2-15b-ift_v18.0  2024-03-10   21.63   \n",
+       "270                HuggingFaceH4_mistral-7b-ift_v49.0  2024-03-07   20.15   \n",
+       "271                  HuggingFaceH4_starchat-beta_main  2024-03-12    8.13   \n",
+       "272             HuggingFaceH4_starcoder2-15b-ift_v7.0  2024-03-10   12.57   \n",
+       "273             HuggingFaceH4_zephyr-7b-beta-ift_v1.1  2024-03-13    9.43   \n",
+       "\n",
+       "     Truthfulqa  Winogrande  Gsm8k   Mmlu  Hellaswag    Arc  \n",
+       "0         61.44       80.58  67.93  76.24      83.79  68.00  \n",
+       "1         57.78       79.16  76.12  71.18      83.94  64.16  \n",
+       "2         64.76       78.53  62.17  71.96      85.42  70.82  \n",
+       "3         70.79       73.56  59.89  70.60      86.68  72.01  \n",
+       "4         57.78       79.16  76.12  71.18      83.94  64.16  \n",
+       "..          ...         ...    ...    ...        ...    ...  \n",
+       "269         NaN         NaN   0.83    NaN        NaN    NaN  \n",
+       "270         NaN         NaN   0.00    NaN        NaN    NaN  \n",
+       "271         NaN         NaN    NaN    NaN        NaN    NaN  \n",
+       "272         NaN         NaN   3.18    NaN        NaN    NaN  \n",
+       "273         NaN         NaN   0.00    NaN        NaN    NaN  \n",
        "\n",
+       "[274 rows x 9 columns]"
       ]
      },
+     "execution_count": 16,
      "metadata": {},
      "output_type": "execute_result"
     }
    ],
    "source": [
+    "df[[\"Model\", \"Date\"]].merge(new_df, on=\"Model\", how=\"left\")"
    ]
   },
   {