u-math-leaderboard / data /u_math_eval_results.json
cogwheelhead's picture
data: add pixtral small
7c38266 verified
[
{
"model_name": "meta-llama/Llama-3.1-8B-Instruct",
"judge_model_name": "gpt-4o-2024-08-06",
"u_math": [
29.545454545454547,
33.666666666666664,
11.0
],
"algebra": [
0.5055555555555555,
0.6,
0.03333333333333333
],
"differential_calc": [
0.15,
0.17333333333333334,
0.1
],
"integral_calc": [
0.21634615384615385,
0.22666666666666666,
0.1896551724137931
],
"multivariable_calculus": [
0.20224719101123595,
0.23333333333333334,
0.03571428571428571
],
"precalculus_review": [
0.4875,
0.5066666666666667,
0.2
],
"sequences_series": [
0.2727272727272727,
0.28,
0.0
]
},
{
"model_name": "Qwen/Qwen2.5-7B-Instruct",
"judge_model_name": "gpt-4o-2024-08-06",
"u_math": [
43.27272727272727,
50.44444444444445,
11.0
],
"algebra": [
0.75,
0.86,
0.2
],
"differential_calc": [
0.22272727272727272,
0.30666666666666664,
0.04285714285714286
],
"integral_calc": [
0.28365384615384615,
0.32,
0.1896551724137931
],
"multivariable_calculus": [
0.3146067415730337,
0.36666666666666664,
0.03571428571428571
],
"precalculus_review": [
0.74375,
0.7866666666666666,
0.1
],
"sequences_series": [
0.37662337662337664,
0.38666666666666666,
0.0
]
},
{
"model_name": "Qwen/Qwen2.5-72B-Instruct",
"judge_model_name": "gpt-4o-2024-08-06",
"u_math": [
51.18181818181819,
58.88888888888889,
16.5
],
"algebra": [
0.7833333333333333,
0.9066666666666666,
0.16666666666666666
],
"differential_calc": [
0.3,
0.36666666666666664,
0.15714285714285714
],
"integral_calc": [
0.30288461538461536,
0.35333333333333333,
0.1724137931034483
],
"multivariable_calculus": [
0.4606741573033708,
0.52,
0.14285714285714285
],
"precalculus_review": [
0.79375,
0.84,
0.1
],
"sequences_series": [
0.5454545454545454,
0.5466666666666666,
0.5
]
},
{
"model_name": "Qwen/Qwen2.5-Math-7B-Instruct",
"judge_model_name": "gpt-4o-2024-08-06",
"u_math": [
45.45454545454545,
53.0,
11.5
],
"algebra": [
0.7166666666666667,
0.8466666666666667,
0.06666666666666667
],
"differential_calc": [
0.24545454545454545,
0.32,
0.08571428571428572
],
"integral_calc": [
0.22115384615384615,
0.24,
0.1724137931034483
],
"multivariable_calculus": [
0.38764044943820225,
0.44,
0.10714285714285714
],
"precalculus_review": [
0.7625,
0.8133333333333334,
0.0
],
"sequences_series": [
0.5194805194805194,
0.52,
0.5
]
},
{
"model_name": "Qwen/Qwen2.5-Math-72B-Instruct",
"judge_model_name": "gpt-4o-2024-08-06",
"u_math": [
59.45454545454546,
68.66666666666667,
18.0
],
"algebra": [
0.8,
0.9466666666666667,
0.06666666666666667
],
"differential_calc": [
0.35454545454545455,
0.46,
0.12857142857142856
],
"integral_calc": [
0.3894230769230769,
0.44,
0.25862068965517243
],
"multivariable_calculus": [
0.6179775280898876,
0.6933333333333334,
0.21428571428571427
],
"precalculus_review": [
0.84375,
0.8933333333333333,
0.1
],
"sequences_series": [
0.6883116883116883,
0.6866666666666666,
0.75
]
},
{
"model_name": "Nexusflow/Athene-V2-Chat",
"judge_model_name": "gpt-4o-2024-08-06",
"u_math": [
54.90909090909091,
62.88888888888889,
19.0
],
"algebra": [
0.7444444444444445,
0.8733333333333333,
0.1
],
"differential_calc": [
0.36818181818181817,
0.43333333333333335,
0.22857142857142856
],
"integral_calc": [
0.3125,
0.36666666666666664,
0.1724137931034483
],
"multivariable_calculus": [
0.5561797752808989,
0.62,
0.21428571428571427
],
"precalculus_review": [
0.85,
0.9066666666666666,
0.0
],
"sequences_series": [
0.577922077922078,
0.5733333333333334,
0.75
]
},
{
"model_name": "gpt-4o-mini-2024-07-18",
"judge_model_name": "gpt-4o-2024-08-06",
"u_math": [
43.36363636363637,
47.22222222222222,
26.0
],
"algebra": [
0.75,
0.8733333333333333,
0.13333333333333333
],
"differential_calc": [
0.2818181818181818,
0.26,
0.32857142857142857
],
"integral_calc": [
0.16826923076923078,
0.16666666666666666,
0.1724137931034483
],
"multivariable_calculus": [
0.37640449438202245,
0.37333333333333335,
0.39285714285714285
],
"precalculus_review": [
0.725,
0.76,
0.2
],
"sequences_series": [
0.4025974025974026,
0.4,
0.5
]
},
{
"model_name": "gpt-4o-2024-08-06",
"judge_model_name": "gpt-4o-2024-08-06",
"u_math": [
50.18181818181818,
53.888888888888886,
33.5
],
"algebra": [
0.8055555555555556,
0.9,
0.3333333333333333
],
"differential_calc": [
0.32272727272727275,
0.3,
0.37142857142857144
],
"integral_calc": [
0.27403846153846156,
0.2733333333333333,
0.27586206896551724
],
"multivariable_calculus": [
0.48314606741573035,
0.49333333333333335,
0.42857142857142855
],
"precalculus_review": [
0.76875,
0.8,
0.3
],
"sequences_series": [
0.45454545454545453,
0.4666666666666667,
0.0
]
},
{
"model_name": "gemini-1.5-flash",
"judge_model_name": "gpt-4o-2024-08-06",
"u_math": [
57.81818181818181,
61.22222222222222,
42.5
],
"algebra": [
0.8333333333333334,
0.9066666666666666,
0.4666666666666667
],
"differential_calc": [
0.4727272727272727,
0.47333333333333333,
0.4714285714285714
],
"integral_calc": [
0.3076923076923077,
0.30666666666666664,
0.3103448275862069
],
"multivariable_calculus": [
0.550561797752809,
0.5533333333333333,
0.5357142857142857
],
"precalculus_review": [
0.79375,
0.8266666666666667,
0.3
],
"sequences_series": [
0.6038961038961039,
0.6066666666666667,
0.5
]
},
{
"model_name": "gemini-1.5-pro",
"judge_model_name": "gpt-4o-2024-08-06",
"u_math": [
60.0909,
63.4444,
45.0
],
"algebra": [
0.8611,
0.9133,
0.6
],
"differential_calc": [
0.4955,
0.5067,
0.4714
],
"integral_calc": [
0.2644,
0.2733,
0.2414
],
"multivariable_calculus": [
0.6011,
0.6067,
0.5714
],
"precalculus_review": [
0.8625,
0.8733,
0.7
],
"sequences_series": [
0.6299,
0.6333,
0.5
]
},
{
"model_name": "claude-sonnet-3.5",
"judge_model_name": "gpt-4o-2024-08-06",
"u_math": [
38.72727272727273,
40.666666666666664,
30.0
],
"algebra": [
0.6777777777777778,
0.7533333333333333,
0.3
],
"differential_calc": [
0.2727272727272727,
0.20666666666666667,
0.4142857142857143
],
"integral_calc": [
0.12980769230769232,
0.12,
0.15517241379310345
],
"multivariable_calculus": [
0.34269662921348315,
0.3333333333333333,
0.39285714285714285
],
"precalculus_review": [
0.6125,
0.64,
0.2
],
"sequences_series": [
0.37662337662337664,
0.38666666666666666,
0.0
]
},
{
"model_name": "mistralai/Ministral-8B-Instruct-2410",
"judge_model_name": "gpt-4o-2024-08-06",
"u_math": [
23.09090909090909,
26.88888888888889,
6.0
],
"algebra": [
0.5111111111111111,
0.6,
0.06666666666666667
],
"differential_calc": [
0.11818181818181818,
0.13333333333333333,
0.08571428571428572
],
"integral_calc": [
0.08653846153846154,
0.1,
0.05172413793103448
],
"multivariable_calculus": [
0.11235955056179775,
0.12666666666666668,
0.03571428571428571
],
"precalculus_review": [
0.44375,
0.47333333333333333,
0.0
],
"sequences_series": [
0.17532467532467533,
0.18,
0.0
]
},
{
"model_name": "mistralai/Mistral-Large-Instruct-2411",
"judge_model_name": "gpt-4o-2024-08-06",
"u_math": [
47.63636363636364,
55.55555555555556,
12.0
],
"algebra": [
0.7333333333333333,
0.8533333333333334,
0.13333333333333333
],
"differential_calc": [
0.24545454545454545,
0.32,
0.08571428571428572
],
"integral_calc": [
0.3076923076923077,
0.36666666666666664,
0.15517241379310345
],
"multivariable_calculus": [
0.4044943820224719,
0.4533333333333333,
0.14285714285714285
],
"precalculus_review": [
0.73125,
0.78,
0.0
],
"sequences_series": [
0.551948051948052,
0.56,
0.25
]
},
{
"model_name": "deepseek-ai/DeepSeek-V3",
"judge_model_name": "gpt-4o-2024-08-06",
"u_math": [
62.63636363636363,
69.33333333333334,
32.5
],
"algebra": [
0.8166666666666667,
0.96,
0.1
],
"differential_calc": [
0.4318181818181818,
0.49333333333333335,
0.3
],
"integral_calc": [
0.3894230769230769,
0.38666666666666666,
0.39655172413793105
],
"multivariable_calculus": [
0.651685393258427,
0.6933333333333334,
0.42857142857142855
],
"precalculus_review": [
0.86875,
0.9,
0.4
],
"sequences_series": [
0.7207792207792207,
0.7266666666666667,
0.5
]
},
{
"model_name": "meta-llama/Llama-3.2-11B-Vision-Instruct",
"judge_model_name": "gpt-4o-2024-08-06",
"u_math": [
20.363636363636363,
22.88888888888889,
9.0
],
"algebra": [
0.4388888888888889,
0.52,
0.03333333333333333
],
"differential_calc": [
0.11363636363636363,
0.07333333333333333,
0.2
],
"integral_calc": [
0.019230769230769232,
0.013333333333333334,
0.034482758620689655
],
"multivariable_calculus": [
0.11235955056179775,
0.13333333333333333,
0.0
],
"precalculus_review": [
0.41875,
0.44,
0.1
],
"sequences_series": [
0.18831168831168832,
0.19333333333333333,
0.0
]
},
{
"model_name": "Qwen/QVQ-72B-Preview",
"judge_model_name": "gpt-4o-2024-08-06",
"u_math": [
65.0,
69.66666666666667,
44.0
],
"algebra": [
0.8388888888888889,
0.94,
0.3333333333333333
],
"differential_calc": [
0.5,
0.54,
0.4142857142857143
],
"integral_calc": [
0.4519230769230769,
0.41333333333333333,
0.5517241379310345
],
"multivariable_calculus": [
0.6292134831460674,
0.6533333333333333,
0.5
],
"precalculus_review": [
0.9125,
0.9533333333333334,
0.3
],
"sequences_series": [
0.6623376623376623,
0.68,
0.0
]
},
{
"model_name": "mistralai/Mistral-Small-Instruct-2501",
"judge_model_name": "gpt-4o-2024-08-06",
"u_math": [
34.81818181818182,
39.88888888888889,
12.0
],
"algebra": [
0.6944444444444444,
0.8066666666666666,
0.13333333333333333
],
"differential_calc": [
0.12272727272727273,
0.13333333333333333,
0.1
],
"integral_calc": [
0.13942307692307693,
0.13333333333333333,
0.15517241379310345
],
"multivariable_calculus": [
0.23595505617977527,
0.25333333333333335,
0.14285714285714285
],
"precalculus_review": [
0.6625,
0.7066666666666667,
0.0
],
"sequences_series": [
0.35064935064935066,
0.36,
0.0
]
},
{
"model_name": "Qwen/Qwen2.5-32B-Instruct",
"judge_model_name": "gpt-4o-2024-08-06",
"u_math": [
52.36363636363637,
60.44444444444444,
16.0
],
"algebra": [
0.7888888888888889,
0.92,
0.13333333333333333
],
"differential_calc": [
0.32727272727272727,
0.4266666666666667,
0.11428571428571428
],
"integral_calc": [
0.32211538461538464,
0.3466666666666667,
0.25862068965517243
],
"multivariable_calculus": [
0.449438202247191,
0.5,
0.17857142857142858
],
"precalculus_review": [
0.8,
0.8533333333333334,
0.0
],
"sequences_series": [
0.564935064935065,
0.58,
0.0
]
},
{
"model_name": "gemini-2.0-flash-thinking-exp-01-21",
"judge_model_name": "gpt-4o-2024-08-06",
"u_math": [
83.63636363636363,
89.22222222222223,
58.5
],
"algebra": [
0.8944444444444445,
0.9533333333333334,
0.6
],
"differential_calc": [
0.7045454545454546,
0.8066666666666666,
0.4857142857142857
],
"integral_calc": [
0.8221153846153846,
0.8866666666666667,
0.6551724137931034
],
"multivariable_calculus": [
0.8370786516853933,
0.8533333333333334,
0.75
],
"precalculus_review": [
0.925,
0.9533333333333334,
0.5
],
"sequences_series": [
0.8831168831168831,
0.9,
0.25
]
},
{
"model_name": "o1-mini",
"judge_model_name": "gpt-4o-2024-08-06",
"u_math": [
76.27272727272727,
82.88888888888889,
46.5
],
"algebra": [
0.8777777777777778,
0.9733333333333334,
0.4
],
"differential_calc": [
0.6818181818181818,
0.7533333333333333,
0.5285714285714286
],
"integral_calc": [
0.6490384615384616,
0.72,
0.46551724137931033
],
"multivariable_calculus": [
0.7303370786516854,
0.7866666666666666,
0.42857142857142855
],
"precalculus_review": [
0.925,
0.9666666666666667,
0.3
],
"sequences_series": [
0.7662337662337663,
0.7733333333333333,
0.5
]
},
{
"model_name": "o1",
"judge_model_name": "gpt-4o-2024-08-06",
"u_math": [
86.81818181818181,
93.11111111111111,
58.5
],
"algebra": [
0.8944444444444445,
0.9733333333333334,
0.5
],
"differential_calc": [
0.7681818181818182,
0.86,
0.5714285714285714
],
"integral_calc": [
0.8317307692307693,
0.9066666666666666,
0.6379310344827587
],
"multivariable_calculus": [
0.8707865168539326,
0.92,
0.6071428571428571
],
"precalculus_review": [
0.9625,
0.9933333333333333,
0.5
],
"sequences_series": [
0.9285714285714286,
0.9333333333333333,
0.75
]
},
{
"model_name": "o3-mini",
"judge_model_name": "gpt-4o-2024-08-06",
"u_math": [
82.18181818181817,
92.77777777777779,
34.5
],
"algebra": [
0.8444444444444444,
0.9933333333333333,
0.1
],
"differential_calc": [
0.6545454545454545,
0.88,
0.17142857142857143
],
"integral_calc": [
0.8221153846153846,
0.9066666666666666,
0.603448275862069
],
"multivariable_calculus": [
0.797752808988764,
0.8533333333333334,
0.5
],
"precalculus_review": [
0.94375,
0.9933333333333333,
0.2
],
"sequences_series": [
0.935064935064935,
0.94,
0.75
]
},
{
"model_name": "deepseek-ai/DeepSeek-R1",
"judge_model_name": "gpt-4o-2024-08-06",
"u_math": [
80.72727272727272,
91.33333333333333,
33.0
],
"algebra": [
0.8333333333333334,
0.9666666666666667,
0.16666666666666666
],
"differential_calc": [
0.6545454545454545,
0.8533333333333334,
0.22857142857142856
],
"integral_calc": [
0.7692307692307693,
0.8733333333333333,
0.5
],
"multivariable_calculus": [
0.797752808988764,
0.8666666666666667,
0.42857142857142855
],
"precalculus_review": [
0.93125,
0.9866666666666667,
0.1
],
"sequences_series": [
0.9285714285714286,
0.9333333333333333,
0.75
]
},
{
"model_name": "Qwen/QwQ-32B-Preview",
"judge_model_name": "gpt-4o-2024-08-06",
"u_math": [
73.0909090909091,
82.66666666666667,
30.0
],
"algebra": [
0.8,
0.9533333333333334,
0.03333333333333333
],
"differential_calc": [
0.5545454545454546,
0.7,
0.24285714285714285
],
"integral_calc": [
0.625,
0.6733333333333333,
0.5
],
"multivariable_calculus": [
0.7303370786516854,
0.8066666666666666,
0.32142857142857145
],
"precalculus_review": [
0.925,
0.9733333333333334,
0.2
],
"sequences_series": [
0.8441558441558441,
0.8533333333333334,
0.5
]
},
{
"model_name": "meta-llama/Llama-3.1-70B-Instruct",
"judge_model_name": "gpt-4o-2024-08-06",
"u_math": [
34.27272727272727,
39.55555555555556,
10.5
],
"algebra": [
0.6555555555555556,
0.7866666666666666,
0.0
],
"differential_calc": [
0.15454545454545454,
0.15333333333333332,
0.15714285714285714
],
"integral_calc": [
0.14423076923076922,
0.16,
0.10344827586206896
],
"multivariable_calculus": [
0.2303370786516854,
0.26,
0.07142857142857142
],
"precalculus_review": [
0.63125,
0.6733333333333333,
0.0
],
"sequences_series": [
0.34415584415584416,
0.34,
0.5
]
},
{
"model_name": "nvidia/Llama-3.1-Nemotron-70B-Instruct",
"judge_model_name": "gpt-4o-2024-08-06",
"u_math": [
42.54545454545455,
47.66666666666667,
19.5
],
"algebra": [
0.7388888888888889,
0.84,
0.23333333333333334
],
"differential_calc": [
0.2681818181818182,
0.29333333333333333,
0.21428571428571427
],
"integral_calc": [
0.20673076923076922,
0.21333333333333335,
0.1896551724137931
],
"multivariable_calculus": [
0.3651685393258427,
0.4066666666666667,
0.14285714285714285
],
"precalculus_review": [
0.64375,
0.6733333333333333,
0.2
],
"sequences_series": [
0.42207792207792205,
0.43333333333333335,
0.0
]
},
{
"model_name": "meta-llama/Llama-3.3-70B-Instruct",
"judge_model_name": "gpt-4o-2024-08-06",
"u_math": [
44.72727272727273,
51.66666666666667,
13.5
],
"algebra": [
0.7055555555555556,
0.8333333333333334,
0.06666666666666667
],
"differential_calc": [
0.2772727272727273,
0.35333333333333333,
0.11428571428571428
],
"integral_calc": [
0.2548076923076923,
0.2733333333333333,
0.20689655172413793
],
"multivariable_calculus": [
0.42696629213483145,
0.4866666666666667,
0.10714285714285714
],
"precalculus_review": [
0.65,
0.6866666666666666,
0.1
],
"sequences_series": [
0.461038961038961,
0.4666666666666667,
0.25
]
},
{
"model_name": "meta-llama/Llama-3.2-90B-Vision-Instruct",
"judge_model_name": "gpt-4o-2024-08-06",
"u_math": [
37.18181818181818,
41.77777777777778,
16.5
],
"algebra": [
0.7222222222222222,
0.82,
0.23333333333333334
],
"differential_calc": [
0.2318181818181818,
0.21333333333333335,
0.2714285714285714
],
"integral_calc": [
0.09615384615384616,
0.11333333333333333,
0.05172413793103448
],
"multivariable_calculus": [
0.2696629213483146,
0.3,
0.10714285714285714
],
"precalculus_review": [
0.65625,
0.7,
0.0
],
"sequences_series": [
0.35714285714285715,
0.36,
0.25
]
},
{
"model_name": "Qwen/Qwen2-VL-7B-Instruct",
"judge_model_name": "gpt-4o-2024-08-06",
"u_math": [
26.272727272727277,
27.111111111111114,
22.5
],
"algebra": [
0.5055555555555555,
0.5866666666666667,
0.1
],
"differential_calc": [
0.24545454545454545,
0.18666666666666668,
0.37142857142857144
],
"integral_calc": [
0.12980769230769232,
0.11333333333333333,
0.1724137931034483
],
"multivariable_calculus": [
0.14606741573033707,
0.14,
0.17857142857142858
],
"precalculus_review": [
0.40625,
0.4266666666666667,
0.1
],
"sequences_series": [
0.16883116883116883,
0.17333333333333334,
0.0
]
},
{
"model_name": "Qwen/Qwen2-VL-72B-Instruct",
"judge_model_name": "gpt-4o-2024-08-06",
"u_math": [
41.81818181818181,
43.888888888888886,
32.5
],
"algebra": [
0.7111111111111111,
0.8,
0.26666666666666666
],
"differential_calc": [
0.3409090909090909,
0.29333333333333333,
0.44285714285714284
],
"integral_calc": [
0.23557692307692307,
0.22,
0.27586206896551724
],
"multivariable_calculus": [
0.3146067415730337,
0.32,
0.2857142857142857
],
"precalculus_review": [
0.625,
0.66,
0.1
],
"sequences_series": [
0.33766233766233766,
0.34,
0.25
]
},
{
"model_name": "mistralai/Pixtral-12B-2409",
"judge_model_name": "gpt-4o-2024-08-06",
"u_math": [
17.545454545454543,
17.888888888888886,
16.0
],
"algebra": [
0.37222222222222223,
0.4,
0.23333333333333334
],
"differential_calc": [
0.16818181818181818,
0.10666666666666667,
0.3
],
"integral_calc": [
0.04326923076923077,
0.04666666666666667,
0.034482758620689655
],
"multivariable_calculus": [
0.06741573033707865,
0.06666666666666667,
0.07142857142857142
],
"precalculus_review": [
0.3,
0.32,
0.0
],
"sequences_series": [
0.12987012987012986,
0.13333333333333333,
0.0
]
},
{
"model_name": "mistralai/Pixtral-Large-Instruct-2411",
"judge_model_name": "gpt-4o-2024-08-06",
"u_math": [
47.81818181818182,
51.44444444444445,
31.5
],
"algebra": [
0.7444444444444445,
0.8266666666666667,
0.3333333333333333
],
"differential_calc": [
0.3090909090909091,
0.3,
0.32857142857142857
],
"integral_calc": [
0.2692307692307692,
0.24666666666666667,
0.3275862068965517
],
"multivariable_calculus": [
0.43820224719101125,
0.4666666666666667,
0.2857142857142857
],
"precalculus_review": [
0.70625,
0.7333333333333333,
0.3
],
"sequences_series": [
0.5,
0.5133333333333333,
0.0
]
},
{
"model_name": "microsoft/phi-4",
"judge_model_name": "gpt-4o-2024-08-06",
"u_math": [
54.45454545454545,
58.333333333333336,
37.0
],
"algebra": [
0.8166666666666667,
0.8933333333333333,
0.43333333333333335
],
"differential_calc": [
0.42272727272727273,
0.4266666666666667,
0.4142857142857143
],
"integral_calc": [
0.28365384615384615,
0.25333333333333335,
0.3620689655172414
],
"multivariable_calculus": [
0.5056179775280899,
0.5466666666666666,
0.2857142857142857
],
"precalculus_review": [
0.84375,
0.88,
0.3
],
"sequences_series": [
0.487012987012987,
0.5,
0.0
]
},
{
"model_name": "LFM-7B",
"judge_model_name": "gpt-4o-2024-08-06",
"u_math": [
25.818181818181817,
28.000000000000004,
16.0
],
"algebra": [
0.5666666666666667,
0.6666666666666666,
0.06666666666666667
],
"differential_calc": [
0.13636363636363635,
0.08666666666666667,
0.24285714285714285
],
"integral_calc": [
0.0673076923076923,
0.04,
0.13793103448275862
],
"multivariable_calculus": [
0.12921348314606743,
0.13333333333333333,
0.10714285714285714
],
"precalculus_review": [
0.5625,
0.5866666666666667,
0.2
],
"sequences_series": [
0.16233766233766234,
0.16666666666666666,
0.0
]
}
]