[
    {
        "model_name": "meta-llama/Llama-3.1-8B-Instruct",
        "judge_model_name": "gpt-4o-2024-08-06",
        "u_math": [
            29.545454545454547,
            33.666666666666664,
            11.0
        ],
        "algebra": [
            0.5055555555555555,
            0.6,
            0.03333333333333333
        ],
        "differential_calc": [
            0.15,
            0.17333333333333334,
            0.1
        ],
        "integral_calc": [
            0.21634615384615385,
            0.22666666666666666,
            0.1896551724137931
        ],
        "multivariable_calculus": [
            0.20224719101123595,
            0.23333333333333334,
            0.03571428571428571
        ],
        "precalculus_review": [
            0.4875,
            0.5066666666666667,
            0.2
        ],
        "sequences_series": [
            0.2727272727272727,
            0.28,
            0.0
        ]
    },
    {
        "model_name": "Qwen/Qwen2.5-7B-Instruct",
        "judge_model_name": "gpt-4o-2024-08-06",
        "u_math": [
            43.27272727272727,
            50.44444444444445,
            11.0
        ],
        "algebra": [
            0.75,
            0.86,
            0.2
        ],
        "differential_calc": [
            0.22272727272727272,
            0.30666666666666664,
            0.04285714285714286
        ],
        "integral_calc": [
            0.28365384615384615,
            0.32,
            0.1896551724137931
        ],
        "multivariable_calculus": [
            0.3146067415730337,
            0.36666666666666664,
            0.03571428571428571
        ],
        "precalculus_review": [
            0.74375,
            0.7866666666666666,
            0.1
        ],
        "sequences_series": [
            0.37662337662337664,
            0.38666666666666666,
            0.0
        ]
    },
    {
        "model_name": "Qwen/Qwen2.5-72B-Instruct",
        "judge_model_name": "gpt-4o-2024-08-06",
        "u_math": [
            51.18181818181819,
            58.88888888888889,
            16.5
        ],
        "algebra": [
            0.7833333333333333,
            0.9066666666666666,
            0.16666666666666666
        ],
        "differential_calc": [
            0.3,
            0.36666666666666664,
            0.15714285714285714
        ],
        "integral_calc": [
            0.30288461538461536,
            0.35333333333333333,
            0.1724137931034483
        ],
        "multivariable_calculus": [
            0.4606741573033708,
            0.52,
            0.14285714285714285
        ],
        "precalculus_review": [
            0.79375,
            0.84,
            0.1
        ],
        "sequences_series": [
            0.5454545454545454,
            0.5466666666666666,
            0.5
        ]
    },
    {
        "model_name": "Qwen/Qwen2.5-Math-7B-Instruct",
        "judge_model_name": "gpt-4o-2024-08-06",
        "u_math": [
            45.45454545454545,
            53.0,
            11.5
        ],
        "algebra": [
            0.7166666666666667,
            0.8466666666666667,
            0.06666666666666667
        ],
        "differential_calc": [
            0.24545454545454545,
            0.32,
            0.08571428571428572
        ],
        "integral_calc": [
            0.22115384615384615,
            0.24,
            0.1724137931034483
        ],
        "multivariable_calculus": [
            0.38764044943820225,
            0.44,
            0.10714285714285714
        ],
        "precalculus_review": [
            0.7625,
            0.8133333333333334,
            0.0
        ],
        "sequences_series": [
            0.5194805194805194,
            0.52,
            0.5
        ]
    },
    {
        "model_name": "Qwen/Qwen2.5-Math-72B-Instruct",
        "judge_model_name": "gpt-4o-2024-08-06",
        "u_math": [
            59.45454545454546,
            68.66666666666667,
            18.0
        ],
        "algebra": [
            0.8,
            0.9466666666666667,
            0.06666666666666667
        ],
        "differential_calc": [
            0.35454545454545455,
            0.46,
            0.12857142857142856
        ],
        "integral_calc": [
            0.3894230769230769,
            0.44,
            0.25862068965517243
        ],
        "multivariable_calculus": [
            0.6179775280898876,
            0.6933333333333334,
            0.21428571428571427
        ],
        "precalculus_review": [
            0.84375,
            0.8933333333333333,
            0.1
        ],
        "sequences_series": [
            0.6883116883116883,
            0.6866666666666666,
            0.75
        ]
    },
    {
        "model_name": "Nexusflow/Athene-V2-Chat",
        "judge_model_name": "gpt-4o-2024-08-06",
        "u_math": [
            54.90909090909091,
            62.88888888888889,
            19.0
        ],
        "algebra": [
            0.7444444444444445,
            0.8733333333333333,
            0.1
        ],
        "differential_calc": [
            0.36818181818181817,
            0.43333333333333335,
            0.22857142857142856
        ],
        "integral_calc": [
            0.3125,
            0.36666666666666664,
            0.1724137931034483
        ],
        "multivariable_calculus": [
            0.5561797752808989,
            0.62,
            0.21428571428571427
        ],
        "precalculus_review": [
            0.85,
            0.9066666666666666,
            0.0
        ],
        "sequences_series": [
            0.577922077922078,
            0.5733333333333334,
            0.75
        ]
    },
    {
        "model_name": "gpt-4o-mini-2024-07-18",
        "judge_model_name": "gpt-4o-2024-08-06",
        "u_math": [
            43.36363636363637,
            47.22222222222222,
            26.0
        ],
        "algebra": [
            0.75,
            0.8733333333333333,
            0.13333333333333333
        ],
        "differential_calc": [
            0.2818181818181818,
            0.26,
            0.32857142857142857
        ],
        "integral_calc": [
            0.16826923076923078,
            0.16666666666666666,
            0.1724137931034483
        ],
        "multivariable_calculus": [
            0.37640449438202245,
            0.37333333333333335,
            0.39285714285714285
        ],
        "precalculus_review": [
            0.725,
            0.76,
            0.2
        ],
        "sequences_series": [
            0.4025974025974026,
            0.4,
            0.5
        ]
    },
    {
        "model_name": "gpt-4o-2024-08-06",
        "judge_model_name": "gpt-4o-2024-08-06",
        "u_math": [
            50.18181818181818,
            53.888888888888886,
            33.5
        ],
        "algebra": [
            0.8055555555555556,
            0.9,
            0.3333333333333333
        ],
        "differential_calc": [
            0.32272727272727275,
            0.3,
            0.37142857142857144
        ],
        "integral_calc": [
            0.27403846153846156,
            0.2733333333333333,
            0.27586206896551724
        ],
        "multivariable_calculus": [
            0.48314606741573035,
            0.49333333333333335,
            0.42857142857142855
        ],
        "precalculus_review": [
            0.76875,
            0.8,
            0.3
        ],
        "sequences_series": [
            0.45454545454545453,
            0.4666666666666667,
            0.0
        ]
    },
    {
        "model_name": "gemini-1.5-flash",
        "judge_model_name": "gpt-4o-2024-08-06",
        "u_math": [
            57.81818181818181,
            61.22222222222222,
            42.5
        ],
        "algebra": [
            0.8333333333333334,
            0.9066666666666666,
            0.4666666666666667
        ],
        "differential_calc": [
            0.4727272727272727,
            0.47333333333333333,
            0.4714285714285714
        ],
        "integral_calc": [
            0.3076923076923077,
            0.30666666666666664,
            0.3103448275862069
        ],
        "multivariable_calculus": [
            0.550561797752809,
            0.5533333333333333,
            0.5357142857142857
        ],
        "precalculus_review": [
            0.79375,
            0.8266666666666667,
            0.3
        ],
        "sequences_series": [
            0.6038961038961039,
            0.6066666666666667,
            0.5
        ]
    },
    {
        "model_name": "gemini-1.5-pro",
        "judge_model_name": "gpt-4o-2024-08-06",
        "u_math": [
            60.0909,
            63.4444,
            45.0
        ],
        "algebra": [
            0.8611,
            0.9133,
            0.6
        ],
        "differential_calc": [
            0.4955,
            0.5067,
            0.4714
        ],
        "integral_calc": [
            0.2644,
            0.2733,
            0.2414
        ],
        "multivariable_calculus": [
            0.6011,
            0.6067,
            0.5714
        ],
        "precalculus_review": [
            0.8625,
            0.8733,
            0.7
        ],
        "sequences_series": [
            0.6299,
            0.6333,
            0.5
        ]
    },
    {
        "model_name": "claude-sonnet-3.5",
        "judge_model_name": "gpt-4o-2024-08-06",
        "u_math": [
            38.72727272727273,
            40.666666666666664,
            30.0
        ],
        "algebra": [
            0.6777777777777778,
            0.7533333333333333,
            0.3
        ],
        "differential_calc": [
            0.2727272727272727,
            0.20666666666666667,
            0.4142857142857143
        ],
        "integral_calc": [
            0.12980769230769232,
            0.12,
            0.15517241379310345
        ],
        "multivariable_calculus": [
            0.34269662921348315,
            0.3333333333333333,
            0.39285714285714285
        ],
        "precalculus_review": [
            0.6125,
            0.64,
            0.2
        ],
        "sequences_series": [
            0.37662337662337664,
            0.38666666666666666,
            0.0
        ]
    },
    {
        "model_name": "mistralai/Ministral-8B-Instruct-2410",
        "judge_model_name": "gpt-4o-2024-08-06",
        "u_math": [
            23.09090909090909,
            26.88888888888889,
            6.0
        ],
        "algebra": [
            0.5111111111111111,
            0.6,
            0.06666666666666667
        ],
        "differential_calc": [
            0.11818181818181818,
            0.13333333333333333,
            0.08571428571428572
        ],
        "integral_calc": [
            0.08653846153846154,
            0.1,
            0.05172413793103448
        ],
        "multivariable_calculus": [
            0.11235955056179775,
            0.12666666666666668,
            0.03571428571428571
        ],
        "precalculus_review": [
            0.44375,
            0.47333333333333333,
            0.0
        ],
        "sequences_series": [
            0.17532467532467533,
            0.18,
            0.0
        ]
    },
    {
        "model_name": "mistralai/Mistral-Large-Instruct-2411",
        "judge_model_name": "gpt-4o-2024-08-06",
        "u_math": [
            47.63636363636364,
            55.55555555555556,
            12.0
        ],
        "algebra": [
            0.7333333333333333,
            0.8533333333333334,
            0.13333333333333333
        ],
        "differential_calc": [
            0.24545454545454545,
            0.32,
            0.08571428571428572
        ],
        "integral_calc": [
            0.3076923076923077,
            0.36666666666666664,
            0.15517241379310345
        ],
        "multivariable_calculus": [
            0.4044943820224719,
            0.4533333333333333,
            0.14285714285714285
        ],
        "precalculus_review": [
            0.73125,
            0.78,
            0.0
        ],
        "sequences_series": [
            0.551948051948052,
            0.56,
            0.25
        ]
    },
    {
        "model_name": "deepseek-ai/DeepSeek-V3",
        "judge_model_name": "gpt-4o-2024-08-06",
        "u_math": [
            62.63636363636363,
            69.33333333333334,
            32.5
        ],
        "algebra": [
            0.8166666666666667,
            0.96,
            0.1
        ],
        "differential_calc": [
            0.4318181818181818,
            0.49333333333333335,
            0.3
        ],
        "integral_calc": [
            0.3894230769230769,
            0.38666666666666666,
            0.39655172413793105
        ],
        "multivariable_calculus": [
            0.651685393258427,
            0.6933333333333334,
            0.42857142857142855
        ],
        "precalculus_review": [
            0.86875,
            0.9,
            0.4
        ],
        "sequences_series": [
            0.7207792207792207,
            0.7266666666666667,
            0.5
        ]
    },
    {
        "model_name": "meta-llama/Llama-3.2-11B-Vision-Instruct",
        "judge_model_name": "gpt-4o-2024-08-06",
        "u_math": [
            20.363636363636363,
            22.88888888888889,
            9.0
        ],
        "algebra": [
            0.4388888888888889,
            0.52,
            0.03333333333333333
        ],
        "differential_calc": [
            0.11363636363636363,
            0.07333333333333333,
            0.2
        ],
        "integral_calc": [
            0.019230769230769232,
            0.013333333333333334,
            0.034482758620689655
        ],
        "multivariable_calculus": [
            0.11235955056179775,
            0.13333333333333333,
            0.0
        ],
        "precalculus_review": [
            0.41875,
            0.44,
            0.1
        ],
        "sequences_series": [
            0.18831168831168832,
            0.19333333333333333,
            0.0
        ]
    },
    {
        "model_name": "Qwen/QVQ-72B-Preview",
        "judge_model_name": "gpt-4o-2024-08-06",
        "u_math": [
            65.0,
            69.66666666666667,
            44.0
        ],
        "algebra": [
            0.8388888888888889,
            0.94,
            0.3333333333333333
        ],
        "differential_calc": [
            0.5,
            0.54,
            0.4142857142857143
        ],
        "integral_calc": [
            0.4519230769230769,
            0.41333333333333333,
            0.5517241379310345
        ],
        "multivariable_calculus": [
            0.6292134831460674,
            0.6533333333333333,
            0.5
        ],
        "precalculus_review": [
            0.9125,
            0.9533333333333334,
            0.3
        ],
        "sequences_series": [
            0.6623376623376623,
            0.68,
            0.0
        ]
    },
    {
        "model_name": "mistralai/Mistral-Small-Instruct-2501",
        "judge_model_name": "gpt-4o-2024-08-06",
        "u_math": [
            34.81818181818182,
            39.88888888888889,
            12.0
        ],
        "algebra": [
            0.6944444444444444,
            0.8066666666666666,
            0.13333333333333333
        ],
        "differential_calc": [
            0.12272727272727273,
            0.13333333333333333,
            0.1
        ],
        "integral_calc": [
            0.13942307692307693,
            0.13333333333333333,
            0.15517241379310345
        ],
        "multivariable_calculus": [
            0.23595505617977527,
            0.25333333333333335,
            0.14285714285714285
        ],
        "precalculus_review": [
            0.6625,
            0.7066666666666667,
            0.0
        ],
        "sequences_series": [
            0.35064935064935066,
            0.36,
            0.0
        ]
    },
    {
        "model_name": "Qwen/Qwen2.5-32B-Instruct",
        "judge_model_name": "gpt-4o-2024-08-06",
        "u_math": [
            52.36363636363637,
            60.44444444444444,
            16.0
        ],
        "algebra": [
            0.7888888888888889,
            0.92,
            0.13333333333333333
        ],
        "differential_calc": [
            0.32727272727272727,
            0.4266666666666667,
            0.11428571428571428
        ],
        "integral_calc": [
            0.32211538461538464,
            0.3466666666666667,
            0.25862068965517243
        ],
        "multivariable_calculus": [
            0.449438202247191,
            0.5,
            0.17857142857142858
        ],
        "precalculus_review": [
            0.8,
            0.8533333333333334,
            0.0
        ],
        "sequences_series": [
            0.564935064935065,
            0.58,
            0.0
        ]
    },
    {
        "model_name": "gemini-2.0-flash-thinking-exp-01-21",
        "judge_model_name": "gpt-4o-2024-08-06",
        "u_math": [
            83.63636363636363,
            89.22222222222223,
            58.5
        ],
        "algebra": [
            0.8944444444444445,
            0.9533333333333334,
            0.6
        ],
        "differential_calc": [
            0.7045454545454546,
            0.8066666666666666,
            0.4857142857142857
        ],
        "integral_calc": [
            0.8221153846153846,
            0.8866666666666667,
            0.6551724137931034
        ],
        "multivariable_calculus": [
            0.8370786516853933,
            0.8533333333333334,
            0.75
        ],
        "precalculus_review": [
            0.925,
            0.9533333333333334,
            0.5
        ],
        "sequences_series": [
            0.8831168831168831,
            0.9,
            0.25
        ]
    },
    {
        "model_name": "o1-mini",
        "judge_model_name": "gpt-4o-2024-08-06",
        "u_math": [
            76.27272727272727,
            82.88888888888889,
            46.5
        ],
        "algebra": [
            0.8777777777777778,
            0.9733333333333334,
            0.4
        ],
        "differential_calc": [
            0.6818181818181818,
            0.7533333333333333,
            0.5285714285714286
        ],
        "integral_calc": [
            0.6490384615384616,
            0.72,
            0.46551724137931033
        ],
        "multivariable_calculus": [
            0.7303370786516854,
            0.7866666666666666,
            0.42857142857142855
        ],
        "precalculus_review": [
            0.925,
            0.9666666666666667,
            0.3
        ],
        "sequences_series": [
            0.7662337662337663,
            0.7733333333333333,
            0.5
        ]
    },
    {
        "model_name": "o1",
        "judge_model_name": "gpt-4o-2024-08-06",
        "u_math": [
            86.81818181818181,
            93.11111111111111,
            58.5
        ],
        "algebra": [
            0.8944444444444445,
            0.9733333333333334,
            0.5
        ],
        "differential_calc": [
            0.7681818181818182,
            0.86,
            0.5714285714285714
        ],
        "integral_calc": [
            0.8317307692307693,
            0.9066666666666666,
            0.6379310344827587
        ],
        "multivariable_calculus": [
            0.8707865168539326,
            0.92,
            0.6071428571428571
        ],
        "precalculus_review": [
            0.9625,
            0.9933333333333333,
            0.5
        ],
        "sequences_series": [
            0.9285714285714286,
            0.9333333333333333,
            0.75
        ]
    },
    {
        "model_name": "o3-mini",
        "judge_model_name": "gpt-4o-2024-08-06",
        "u_math": [
            82.18181818181817,
            92.77777777777779,
            34.5
        ],
        "algebra": [
            0.8444444444444444,
            0.9933333333333333,
            0.1
        ],
        "differential_calc": [
            0.6545454545454545,
            0.88,
            0.17142857142857143
        ],
        "integral_calc": [
            0.8221153846153846,
            0.9066666666666666,
            0.603448275862069
        ],
        "multivariable_calculus": [
            0.797752808988764,
            0.8533333333333334,
            0.5
        ],
        "precalculus_review": [
            0.94375,
            0.9933333333333333,
            0.2
        ],
        "sequences_series": [
            0.935064935064935,
            0.94,
            0.75
        ]
    },
    {
        "model_name": "deepseek-ai/DeepSeek-R1",
        "judge_model_name": "gpt-4o-2024-08-06",
        "u_math": [
            80.72727272727272,
            91.33333333333333,
            33.0
        ],
        "algebra": [
            0.8333333333333334,
            0.9666666666666667,
            0.16666666666666666
        ],
        "differential_calc": [
            0.6545454545454545,
            0.8533333333333334,
            0.22857142857142856
        ],
        "integral_calc": [
            0.7692307692307693,
            0.8733333333333333,
            0.5
        ],
        "multivariable_calculus": [
            0.797752808988764,
            0.8666666666666667,
            0.42857142857142855
        ],
        "precalculus_review": [
            0.93125,
            0.9866666666666667,
            0.1
        ],
        "sequences_series": [
            0.9285714285714286,
            0.9333333333333333,
            0.75
        ]
    },
    {
        "model_name": "Qwen/QwQ-32B-Preview",
        "judge_model_name": "gpt-4o-2024-08-06",
        "u_math": [
            73.0909090909091,
            82.66666666666667,
            30.0
        ],
        "algebra": [
            0.8,
            0.9533333333333334,
            0.03333333333333333
        ],
        "differential_calc": [
            0.5545454545454546,
            0.7,
            0.24285714285714285
        ],
        "integral_calc": [
            0.625,
            0.6733333333333333,
            0.5
        ],
        "multivariable_calculus": [
            0.7303370786516854,
            0.8066666666666666,
            0.32142857142857145
        ],
        "precalculus_review": [
            0.925,
            0.9733333333333334,
            0.2
        ],
        "sequences_series": [
            0.8441558441558441,
            0.8533333333333334,
            0.5
        ]
    },
    {
        "model_name": "meta-llama/Llama-3.1-70B-Instruct",
        "judge_model_name": "gpt-4o-2024-08-06",
        "u_math": [
            34.27272727272727,
            39.55555555555556,
            10.5
        ],
        "algebra": [
            0.6555555555555556,
            0.7866666666666666,
            0.0
        ],
        "differential_calc": [
            0.15454545454545454,
            0.15333333333333332,
            0.15714285714285714
        ],
        "integral_calc": [
            0.14423076923076922,
            0.16,
            0.10344827586206896
        ],
        "multivariable_calculus": [
            0.2303370786516854,
            0.26,
            0.07142857142857142
        ],
        "precalculus_review": [
            0.63125,
            0.6733333333333333,
            0.0
        ],
        "sequences_series": [
            0.34415584415584416,
            0.34,
            0.5
        ]
    },
    {
        "model_name": "nvidia/Llama-3.1-Nemotron-70B-Instruct",
        "judge_model_name": "gpt-4o-2024-08-06",
        "u_math": [
            42.54545454545455,
            47.66666666666667,
            19.5
        ],
        "algebra": [
            0.7388888888888889,
            0.84,
            0.23333333333333334
        ],
        "differential_calc": [
            0.2681818181818182,
            0.29333333333333333,
            0.21428571428571427
        ],
        "integral_calc": [
            0.20673076923076922,
            0.21333333333333335,
            0.1896551724137931
        ],
        "multivariable_calculus": [
            0.3651685393258427,
            0.4066666666666667,
            0.14285714285714285
        ],
        "precalculus_review": [
            0.64375,
            0.6733333333333333,
            0.2
        ],
        "sequences_series": [
            0.42207792207792205,
            0.43333333333333335,
            0.0
        ]
    },
    {
        "model_name": "meta-llama/Llama-3.3-70B-Instruct",
        "judge_model_name": "gpt-4o-2024-08-06",
        "u_math": [
            44.72727272727273,
            51.66666666666667,
            13.5
        ],
        "algebra": [
            0.7055555555555556,
            0.8333333333333334,
            0.06666666666666667
        ],
        "differential_calc": [
            0.2772727272727273,
            0.35333333333333333,
            0.11428571428571428
        ],
        "integral_calc": [
            0.2548076923076923,
            0.2733333333333333,
            0.20689655172413793
        ],
        "multivariable_calculus": [
            0.42696629213483145,
            0.4866666666666667,
            0.10714285714285714
        ],
        "precalculus_review": [
            0.65,
            0.6866666666666666,
            0.1
        ],
        "sequences_series": [
            0.461038961038961,
            0.4666666666666667,
            0.25
        ]
    },
    {
        "model_name": "meta-llama/Llama-3.2-90B-Vision-Instruct",
        "judge_model_name": "gpt-4o-2024-08-06",
        "u_math": [
            37.18181818181818,
            41.77777777777778,
            16.5
        ],
        "algebra": [
            0.7222222222222222,
            0.82,
            0.23333333333333334
        ],
        "differential_calc": [
            0.2318181818181818,
            0.21333333333333335,
            0.2714285714285714
        ],
        "integral_calc": [
            0.09615384615384616,
            0.11333333333333333,
            0.05172413793103448
        ],
        "multivariable_calculus": [
            0.2696629213483146,
            0.3,
            0.10714285714285714
        ],
        "precalculus_review": [
            0.65625,
            0.7,
            0.0
        ],
        "sequences_series": [
            0.35714285714285715,
            0.36,
            0.25
        ]
    },
    {
        "model_name": "Qwen/Qwen2-VL-7B-Instruct",
        "judge_model_name": "gpt-4o-2024-08-06",
        "u_math": [
            26.272727272727277,
            27.111111111111114,
            22.5
        ],
        "algebra": [
            0.5055555555555555,
            0.5866666666666667,
            0.1
        ],
        "differential_calc": [
            0.24545454545454545,
            0.18666666666666668,
            0.37142857142857144
        ],
        "integral_calc": [
            0.12980769230769232,
            0.11333333333333333,
            0.1724137931034483
        ],
        "multivariable_calculus": [
            0.14606741573033707,
            0.14,
            0.17857142857142858
        ],
        "precalculus_review": [
            0.40625,
            0.4266666666666667,
            0.1
        ],
        "sequences_series": [
            0.16883116883116883,
            0.17333333333333334,
            0.0
        ]
    },
    {
        "model_name": "Qwen/Qwen2-VL-72B-Instruct",
        "judge_model_name": "gpt-4o-2024-08-06",
        "u_math": [
            41.81818181818181,
            43.888888888888886,
            32.5
        ],
        "algebra": [
            0.7111111111111111,
            0.8,
            0.26666666666666666
        ],
        "differential_calc": [
            0.3409090909090909,
            0.29333333333333333,
            0.44285714285714284
        ],
        "integral_calc": [
            0.23557692307692307,
            0.22,
            0.27586206896551724
        ],
        "multivariable_calculus": [
            0.3146067415730337,
            0.32,
            0.2857142857142857
        ],
        "precalculus_review": [
            0.625,
            0.66,
            0.1
        ],
        "sequences_series": [
            0.33766233766233766,
            0.34,
            0.25
        ]
    },
    {
        "model_name": "mistralai/Pixtral-12B-2409",
        "judge_model_name": "gpt-4o-2024-08-06",
        "u_math": [
            17.545454545454543,
            17.888888888888886,
            16.0
        ],
        "algebra": [
            0.37222222222222223,
            0.4,
            0.23333333333333334
        ],
        "differential_calc": [
            0.16818181818181818,
            0.10666666666666667,
            0.3
        ],
        "integral_calc": [
            0.04326923076923077,
            0.04666666666666667,
            0.034482758620689655
        ],
        "multivariable_calculus": [
            0.06741573033707865,
            0.06666666666666667,
            0.07142857142857142
        ],
        "precalculus_review": [
            0.3,
            0.32,
            0.0
        ],
        "sequences_series": [
            0.12987012987012986,
            0.13333333333333333,
            0.0
        ]
    },
    {
        "model_name": "mistralai/Pixtral-Large-Instruct-2411",
        "judge_model_name": "gpt-4o-2024-08-06",
        "u_math": [
            47.81818181818182,
            51.44444444444445,
            31.5
        ],
        "algebra": [
            0.7444444444444445,
            0.8266666666666667,
            0.3333333333333333
        ],
        "differential_calc": [
            0.3090909090909091,
            0.3,
            0.32857142857142857
        ],
        "integral_calc": [
            0.2692307692307692,
            0.24666666666666667,
            0.3275862068965517
        ],
        "multivariable_calculus": [
            0.43820224719101125,
            0.4666666666666667,
            0.2857142857142857
        ],
        "precalculus_review": [
            0.70625,
            0.7333333333333333,
            0.3
        ],
        "sequences_series": [
            0.5,
            0.5133333333333333,
            0.0
        ]
    },
    {
        "model_name": "microsoft/phi-4",
        "judge_model_name": "gpt-4o-2024-08-06",
        "u_math": [
            54.45454545454545,
            58.333333333333336,
            37.0
        ],
        "algebra": [
            0.8166666666666667,
            0.8933333333333333,
            0.43333333333333335
        ],
        "differential_calc": [
            0.42272727272727273,
            0.4266666666666667,
            0.4142857142857143
        ],
        "integral_calc": [
            0.28365384615384615,
            0.25333333333333335,
            0.3620689655172414
        ],
        "multivariable_calculus": [
            0.5056179775280899,
            0.5466666666666666,
            0.2857142857142857
        ],
        "precalculus_review": [
            0.84375,
            0.88,
            0.3
        ],
        "sequences_series": [
            0.487012987012987,
            0.5,
            0.0
        ]
    },
    {
        "model_name": "LFM-7B",
        "judge_model_name": "gpt-4o-2024-08-06",
        "u_math": [
            25.818181818181817,
            28.000000000000004,
            16.0
        ],
        "algebra": [
            0.5666666666666667,
            0.6666666666666666,
            0.06666666666666667
        ],
        "differential_calc": [
            0.13636363636363635,
            0.08666666666666667,
            0.24285714285714285
        ],
        "integral_calc": [
            0.0673076923076923,
            0.04,
            0.13793103448275862
        ],
        "multivariable_calculus": [
            0.12921348314606743,
            0.13333333333333333,
            0.10714285714285714
        ],
        "precalculus_review": [
            0.5625,
            0.5866666666666667,
            0.2
        ],
        "sequences_series": [
            0.16233766233766234,
            0.16666666666666666,
            0.0
        ]
    }
]