Spaces:
Running
Running
[ | |
{ | |
"model_name": "meta-llama/Llama-3.1-8B-Instruct", | |
"judge_model_name": "gpt-4o-2024-08-06", | |
"u_math": [ | |
29.545454545454547, | |
33.666666666666664, | |
11.0 | |
], | |
"algebra": [ | |
0.5055555555555555, | |
0.6, | |
0.03333333333333333 | |
], | |
"differential_calc": [ | |
0.15, | |
0.17333333333333334, | |
0.1 | |
], | |
"integral_calc": [ | |
0.21634615384615385, | |
0.22666666666666666, | |
0.1896551724137931 | |
], | |
"multivariable_calculus": [ | |
0.20224719101123595, | |
0.23333333333333334, | |
0.03571428571428571 | |
], | |
"precalculus_review": [ | |
0.4875, | |
0.5066666666666667, | |
0.2 | |
], | |
"sequences_series": [ | |
0.2727272727272727, | |
0.28, | |
0.0 | |
] | |
}, | |
{ | |
"model_name": "Qwen/Qwen2.5-7B-Instruct", | |
"judge_model_name": "gpt-4o-2024-08-06", | |
"u_math": [ | |
43.27272727272727, | |
50.44444444444445, | |
11.0 | |
], | |
"algebra": [ | |
0.75, | |
0.86, | |
0.2 | |
], | |
"differential_calc": [ | |
0.22272727272727272, | |
0.30666666666666664, | |
0.04285714285714286 | |
], | |
"integral_calc": [ | |
0.28365384615384615, | |
0.32, | |
0.1896551724137931 | |
], | |
"multivariable_calculus": [ | |
0.3146067415730337, | |
0.36666666666666664, | |
0.03571428571428571 | |
], | |
"precalculus_review": [ | |
0.74375, | |
0.7866666666666666, | |
0.1 | |
], | |
"sequences_series": [ | |
0.37662337662337664, | |
0.38666666666666666, | |
0.0 | |
] | |
}, | |
{ | |
"model_name": "Qwen/Qwen2.5-72B-Instruct", | |
"judge_model_name": "gpt-4o-2024-08-06", | |
"u_math": [ | |
51.18181818181819, | |
58.88888888888889, | |
16.5 | |
], | |
"algebra": [ | |
0.7833333333333333, | |
0.9066666666666666, | |
0.16666666666666666 | |
], | |
"differential_calc": [ | |
0.3, | |
0.36666666666666664, | |
0.15714285714285714 | |
], | |
"integral_calc": [ | |
0.30288461538461536, | |
0.35333333333333333, | |
0.1724137931034483 | |
], | |
"multivariable_calculus": [ | |
0.4606741573033708, | |
0.52, | |
0.14285714285714285 | |
], | |
"precalculus_review": [ | |
0.79375, | |
0.84, | |
0.1 | |
], | |
"sequences_series": [ | |
0.5454545454545454, | |
0.5466666666666666, | |
0.5 | |
] | |
}, | |
{ | |
"model_name": "Qwen/Qwen2.5-Math-7B-Instruct", | |
"judge_model_name": "gpt-4o-2024-08-06", | |
"u_math": [ | |
45.45454545454545, | |
53.0, | |
11.5 | |
], | |
"algebra": [ | |
0.7166666666666667, | |
0.8466666666666667, | |
0.06666666666666667 | |
], | |
"differential_calc": [ | |
0.24545454545454545, | |
0.32, | |
0.08571428571428572 | |
], | |
"integral_calc": [ | |
0.22115384615384615, | |
0.24, | |
0.1724137931034483 | |
], | |
"multivariable_calculus": [ | |
0.38764044943820225, | |
0.44, | |
0.10714285714285714 | |
], | |
"precalculus_review": [ | |
0.7625, | |
0.8133333333333334, | |
0.0 | |
], | |
"sequences_series": [ | |
0.5194805194805194, | |
0.52, | |
0.5 | |
] | |
}, | |
{ | |
"model_name": "Qwen/Qwen2.5-Math-72B-Instruct", | |
"judge_model_name": "gpt-4o-2024-08-06", | |
"u_math": [ | |
59.45454545454546, | |
68.66666666666667, | |
18.0 | |
], | |
"algebra": [ | |
0.8, | |
0.9466666666666667, | |
0.06666666666666667 | |
], | |
"differential_calc": [ | |
0.35454545454545455, | |
0.46, | |
0.12857142857142856 | |
], | |
"integral_calc": [ | |
0.3894230769230769, | |
0.44, | |
0.25862068965517243 | |
], | |
"multivariable_calculus": [ | |
0.6179775280898876, | |
0.6933333333333334, | |
0.21428571428571427 | |
], | |
"precalculus_review": [ | |
0.84375, | |
0.8933333333333333, | |
0.1 | |
], | |
"sequences_series": [ | |
0.6883116883116883, | |
0.6866666666666666, | |
0.75 | |
] | |
}, | |
{ | |
"model_name": "Nexusflow/Athene-V2-Chat", | |
"judge_model_name": "gpt-4o-2024-08-06", | |
"u_math": [ | |
54.90909090909091, | |
62.88888888888889, | |
19.0 | |
], | |
"algebra": [ | |
0.7444444444444445, | |
0.8733333333333333, | |
0.1 | |
], | |
"differential_calc": [ | |
0.36818181818181817, | |
0.43333333333333335, | |
0.22857142857142856 | |
], | |
"integral_calc": [ | |
0.3125, | |
0.36666666666666664, | |
0.1724137931034483 | |
], | |
"multivariable_calculus": [ | |
0.5561797752808989, | |
0.62, | |
0.21428571428571427 | |
], | |
"precalculus_review": [ | |
0.85, | |
0.9066666666666666, | |
0.0 | |
], | |
"sequences_series": [ | |
0.577922077922078, | |
0.5733333333333334, | |
0.75 | |
] | |
}, | |
{ | |
"model_name": "gpt-4o-mini-2024-07-18", | |
"judge_model_name": "gpt-4o-2024-08-06", | |
"u_math": [ | |
43.36363636363637, | |
47.22222222222222, | |
26.0 | |
], | |
"algebra": [ | |
0.75, | |
0.8733333333333333, | |
0.13333333333333333 | |
], | |
"differential_calc": [ | |
0.2818181818181818, | |
0.26, | |
0.32857142857142857 | |
], | |
"integral_calc": [ | |
0.16826923076923078, | |
0.16666666666666666, | |
0.1724137931034483 | |
], | |
"multivariable_calculus": [ | |
0.37640449438202245, | |
0.37333333333333335, | |
0.39285714285714285 | |
], | |
"precalculus_review": [ | |
0.725, | |
0.76, | |
0.2 | |
], | |
"sequences_series": [ | |
0.4025974025974026, | |
0.4, | |
0.5 | |
] | |
}, | |
{ | |
"model_name": "gpt-4o-2024-08-06", | |
"judge_model_name": "gpt-4o-2024-08-06", | |
"u_math": [ | |
50.18181818181818, | |
53.888888888888886, | |
33.5 | |
], | |
"algebra": [ | |
0.8055555555555556, | |
0.9, | |
0.3333333333333333 | |
], | |
"differential_calc": [ | |
0.32272727272727275, | |
0.3, | |
0.37142857142857144 | |
], | |
"integral_calc": [ | |
0.27403846153846156, | |
0.2733333333333333, | |
0.27586206896551724 | |
], | |
"multivariable_calculus": [ | |
0.48314606741573035, | |
0.49333333333333335, | |
0.42857142857142855 | |
], | |
"precalculus_review": [ | |
0.76875, | |
0.8, | |
0.3 | |
], | |
"sequences_series": [ | |
0.45454545454545453, | |
0.4666666666666667, | |
0.0 | |
] | |
}, | |
{ | |
"model_name": "gemini-1.5-flash", | |
"judge_model_name": "gpt-4o-2024-08-06", | |
"u_math": [ | |
57.81818181818181, | |
61.22222222222222, | |
42.5 | |
], | |
"algebra": [ | |
0.8333333333333334, | |
0.9066666666666666, | |
0.4666666666666667 | |
], | |
"differential_calc": [ | |
0.4727272727272727, | |
0.47333333333333333, | |
0.4714285714285714 | |
], | |
"integral_calc": [ | |
0.3076923076923077, | |
0.30666666666666664, | |
0.3103448275862069 | |
], | |
"multivariable_calculus": [ | |
0.550561797752809, | |
0.5533333333333333, | |
0.5357142857142857 | |
], | |
"precalculus_review": [ | |
0.79375, | |
0.8266666666666667, | |
0.3 | |
], | |
"sequences_series": [ | |
0.6038961038961039, | |
0.6066666666666667, | |
0.5 | |
] | |
}, | |
{ | |
"model_name": "gemini-1.5-pro", | |
"judge_model_name": "gpt-4o-2024-08-06", | |
"u_math": [ | |
60.0909, | |
63.4444, | |
45.0 | |
], | |
"algebra": [ | |
0.8611, | |
0.9133, | |
0.6 | |
], | |
"differential_calc": [ | |
0.4955, | |
0.5067, | |
0.4714 | |
], | |
"integral_calc": [ | |
0.2644, | |
0.2733, | |
0.2414 | |
], | |
"multivariable_calculus": [ | |
0.6011, | |
0.6067, | |
0.5714 | |
], | |
"precalculus_review": [ | |
0.8625, | |
0.8733, | |
0.7 | |
], | |
"sequences_series": [ | |
0.6299, | |
0.6333, | |
0.5 | |
] | |
}, | |
{ | |
"model_name": "claude-sonnet-3.5", | |
"judge_model_name": "gpt-4o-2024-08-06", | |
"u_math": [ | |
38.72727272727273, | |
40.666666666666664, | |
30.0 | |
], | |
"algebra": [ | |
0.6777777777777778, | |
0.7533333333333333, | |
0.3 | |
], | |
"differential_calc": [ | |
0.2727272727272727, | |
0.20666666666666667, | |
0.4142857142857143 | |
], | |
"integral_calc": [ | |
0.12980769230769232, | |
0.12, | |
0.15517241379310345 | |
], | |
"multivariable_calculus": [ | |
0.34269662921348315, | |
0.3333333333333333, | |
0.39285714285714285 | |
], | |
"precalculus_review": [ | |
0.6125, | |
0.64, | |
0.2 | |
], | |
"sequences_series": [ | |
0.37662337662337664, | |
0.38666666666666666, | |
0.0 | |
] | |
}, | |
{ | |
"model_name": "mistralai/Ministral-8B-Instruct-2410", | |
"judge_model_name": "gpt-4o-2024-08-06", | |
"u_math": [ | |
23.09090909090909, | |
26.88888888888889, | |
6.0 | |
], | |
"algebra": [ | |
0.5111111111111111, | |
0.6, | |
0.06666666666666667 | |
], | |
"differential_calc": [ | |
0.11818181818181818, | |
0.13333333333333333, | |
0.08571428571428572 | |
], | |
"integral_calc": [ | |
0.08653846153846154, | |
0.1, | |
0.05172413793103448 | |
], | |
"multivariable_calculus": [ | |
0.11235955056179775, | |
0.12666666666666668, | |
0.03571428571428571 | |
], | |
"precalculus_review": [ | |
0.44375, | |
0.47333333333333333, | |
0.0 | |
], | |
"sequences_series": [ | |
0.17532467532467533, | |
0.18, | |
0.0 | |
] | |
}, | |
{ | |
"model_name": "mistralai/Mistral-Large-Instruct-2411", | |
"judge_model_name": "gpt-4o-2024-08-06", | |
"u_math": [ | |
47.63636363636364, | |
55.55555555555556, | |
12.0 | |
], | |
"algebra": [ | |
0.7333333333333333, | |
0.8533333333333334, | |
0.13333333333333333 | |
], | |
"differential_calc": [ | |
0.24545454545454545, | |
0.32, | |
0.08571428571428572 | |
], | |
"integral_calc": [ | |
0.3076923076923077, | |
0.36666666666666664, | |
0.15517241379310345 | |
], | |
"multivariable_calculus": [ | |
0.4044943820224719, | |
0.4533333333333333, | |
0.14285714285714285 | |
], | |
"precalculus_review": [ | |
0.73125, | |
0.78, | |
0.0 | |
], | |
"sequences_series": [ | |
0.551948051948052, | |
0.56, | |
0.25 | |
] | |
}, | |
{ | |
"model_name": "deepseek-ai/DeepSeek-V3", | |
"judge_model_name": "gpt-4o-2024-08-06", | |
"u_math": [ | |
62.63636363636363, | |
69.33333333333334, | |
32.5 | |
], | |
"algebra": [ | |
0.8166666666666667, | |
0.96, | |
0.1 | |
], | |
"differential_calc": [ | |
0.4318181818181818, | |
0.49333333333333335, | |
0.3 | |
], | |
"integral_calc": [ | |
0.3894230769230769, | |
0.38666666666666666, | |
0.39655172413793105 | |
], | |
"multivariable_calculus": [ | |
0.651685393258427, | |
0.6933333333333334, | |
0.42857142857142855 | |
], | |
"precalculus_review": [ | |
0.86875, | |
0.9, | |
0.4 | |
], | |
"sequences_series": [ | |
0.7207792207792207, | |
0.7266666666666667, | |
0.5 | |
] | |
}, | |
{ | |
"model_name": "meta-llama/Llama-3.2-11B-Vision-Instruct", | |
"judge_model_name": "gpt-4o-2024-08-06", | |
"u_math": [ | |
20.363636363636363, | |
22.88888888888889, | |
9.0 | |
], | |
"algebra": [ | |
0.4388888888888889, | |
0.52, | |
0.03333333333333333 | |
], | |
"differential_calc": [ | |
0.11363636363636363, | |
0.07333333333333333, | |
0.2 | |
], | |
"integral_calc": [ | |
0.019230769230769232, | |
0.013333333333333334, | |
0.034482758620689655 | |
], | |
"multivariable_calculus": [ | |
0.11235955056179775, | |
0.13333333333333333, | |
0.0 | |
], | |
"precalculus_review": [ | |
0.41875, | |
0.44, | |
0.1 | |
], | |
"sequences_series": [ | |
0.18831168831168832, | |
0.19333333333333333, | |
0.0 | |
] | |
}, | |
{ | |
"model_name": "Qwen/QVQ-72B-Preview", | |
"judge_model_name": "gpt-4o-2024-08-06", | |
"u_math": [ | |
65.0, | |
69.66666666666667, | |
44.0 | |
], | |
"algebra": [ | |
0.8388888888888889, | |
0.94, | |
0.3333333333333333 | |
], | |
"differential_calc": [ | |
0.5, | |
0.54, | |
0.4142857142857143 | |
], | |
"integral_calc": [ | |
0.4519230769230769, | |
0.41333333333333333, | |
0.5517241379310345 | |
], | |
"multivariable_calculus": [ | |
0.6292134831460674, | |
0.6533333333333333, | |
0.5 | |
], | |
"precalculus_review": [ | |
0.9125, | |
0.9533333333333334, | |
0.3 | |
], | |
"sequences_series": [ | |
0.6623376623376623, | |
0.68, | |
0.0 | |
] | |
}, | |
{ | |
"model_name": "mistralai/Mistral-Small-Instruct-2501", | |
"judge_model_name": "gpt-4o-2024-08-06", | |
"u_math": [ | |
34.81818181818182, | |
39.88888888888889, | |
12.0 | |
], | |
"algebra": [ | |
0.6944444444444444, | |
0.8066666666666666, | |
0.13333333333333333 | |
], | |
"differential_calc": [ | |
0.12272727272727273, | |
0.13333333333333333, | |
0.1 | |
], | |
"integral_calc": [ | |
0.13942307692307693, | |
0.13333333333333333, | |
0.15517241379310345 | |
], | |
"multivariable_calculus": [ | |
0.23595505617977527, | |
0.25333333333333335, | |
0.14285714285714285 | |
], | |
"precalculus_review": [ | |
0.6625, | |
0.7066666666666667, | |
0.0 | |
], | |
"sequences_series": [ | |
0.35064935064935066, | |
0.36, | |
0.0 | |
] | |
}, | |
{ | |
"model_name": "Qwen/Qwen2.5-32B-Instruct", | |
"judge_model_name": "gpt-4o-2024-08-06", | |
"u_math": [ | |
52.36363636363637, | |
60.44444444444444, | |
16.0 | |
], | |
"algebra": [ | |
0.7888888888888889, | |
0.92, | |
0.13333333333333333 | |
], | |
"differential_calc": [ | |
0.32727272727272727, | |
0.4266666666666667, | |
0.11428571428571428 | |
], | |
"integral_calc": [ | |
0.32211538461538464, | |
0.3466666666666667, | |
0.25862068965517243 | |
], | |
"multivariable_calculus": [ | |
0.449438202247191, | |
0.5, | |
0.17857142857142858 | |
], | |
"precalculus_review": [ | |
0.8, | |
0.8533333333333334, | |
0.0 | |
], | |
"sequences_series": [ | |
0.564935064935065, | |
0.58, | |
0.0 | |
] | |
}, | |
{ | |
"model_name": "gemini-2.0-flash-thinking-exp-01-21", | |
"judge_model_name": "gpt-4o-2024-08-06", | |
"u_math": [ | |
83.63636363636363, | |
89.22222222222223, | |
58.5 | |
], | |
"algebra": [ | |
0.8944444444444445, | |
0.9533333333333334, | |
0.6 | |
], | |
"differential_calc": [ | |
0.7045454545454546, | |
0.8066666666666666, | |
0.4857142857142857 | |
], | |
"integral_calc": [ | |
0.8221153846153846, | |
0.8866666666666667, | |
0.6551724137931034 | |
], | |
"multivariable_calculus": [ | |
0.8370786516853933, | |
0.8533333333333334, | |
0.75 | |
], | |
"precalculus_review": [ | |
0.925, | |
0.9533333333333334, | |
0.5 | |
], | |
"sequences_series": [ | |
0.8831168831168831, | |
0.9, | |
0.25 | |
] | |
}, | |
{ | |
"model_name": "o1-mini", | |
"judge_model_name": "gpt-4o-2024-08-06", | |
"u_math": [ | |
76.27272727272727, | |
82.88888888888889, | |
46.5 | |
], | |
"algebra": [ | |
0.8777777777777778, | |
0.9733333333333334, | |
0.4 | |
], | |
"differential_calc": [ | |
0.6818181818181818, | |
0.7533333333333333, | |
0.5285714285714286 | |
], | |
"integral_calc": [ | |
0.6490384615384616, | |
0.72, | |
0.46551724137931033 | |
], | |
"multivariable_calculus": [ | |
0.7303370786516854, | |
0.7866666666666666, | |
0.42857142857142855 | |
], | |
"precalculus_review": [ | |
0.925, | |
0.9666666666666667, | |
0.3 | |
], | |
"sequences_series": [ | |
0.7662337662337663, | |
0.7733333333333333, | |
0.5 | |
] | |
}, | |
{ | |
"model_name": "o1", | |
"judge_model_name": "gpt-4o-2024-08-06", | |
"u_math": [ | |
86.81818181818181, | |
93.11111111111111, | |
58.5 | |
], | |
"algebra": [ | |
0.8944444444444445, | |
0.9733333333333334, | |
0.5 | |
], | |
"differential_calc": [ | |
0.7681818181818182, | |
0.86, | |
0.5714285714285714 | |
], | |
"integral_calc": [ | |
0.8317307692307693, | |
0.9066666666666666, | |
0.6379310344827587 | |
], | |
"multivariable_calculus": [ | |
0.8707865168539326, | |
0.92, | |
0.6071428571428571 | |
], | |
"precalculus_review": [ | |
0.9625, | |
0.9933333333333333, | |
0.5 | |
], | |
"sequences_series": [ | |
0.9285714285714286, | |
0.9333333333333333, | |
0.75 | |
] | |
}, | |
{ | |
"model_name": "o3-mini", | |
"judge_model_name": "gpt-4o-2024-08-06", | |
"u_math": [ | |
82.18181818181817, | |
92.77777777777779, | |
34.5 | |
], | |
"algebra": [ | |
0.8444444444444444, | |
0.9933333333333333, | |
0.1 | |
], | |
"differential_calc": [ | |
0.6545454545454545, | |
0.88, | |
0.17142857142857143 | |
], | |
"integral_calc": [ | |
0.8221153846153846, | |
0.9066666666666666, | |
0.603448275862069 | |
], | |
"multivariable_calculus": [ | |
0.797752808988764, | |
0.8533333333333334, | |
0.5 | |
], | |
"precalculus_review": [ | |
0.94375, | |
0.9933333333333333, | |
0.2 | |
], | |
"sequences_series": [ | |
0.935064935064935, | |
0.94, | |
0.75 | |
] | |
}, | |
{ | |
"model_name": "deepseek-ai/DeepSeek-R1", | |
"judge_model_name": "gpt-4o-2024-08-06", | |
"u_math": [ | |
80.72727272727272, | |
91.33333333333333, | |
33.0 | |
], | |
"algebra": [ | |
0.8333333333333334, | |
0.9666666666666667, | |
0.16666666666666666 | |
], | |
"differential_calc": [ | |
0.6545454545454545, | |
0.8533333333333334, | |
0.22857142857142856 | |
], | |
"integral_calc": [ | |
0.7692307692307693, | |
0.8733333333333333, | |
0.5 | |
], | |
"multivariable_calculus": [ | |
0.797752808988764, | |
0.8666666666666667, | |
0.42857142857142855 | |
], | |
"precalculus_review": [ | |
0.93125, | |
0.9866666666666667, | |
0.1 | |
], | |
"sequences_series": [ | |
0.9285714285714286, | |
0.9333333333333333, | |
0.75 | |
] | |
}, | |
{ | |
"model_name": "Qwen/QwQ-32B-Preview", | |
"judge_model_name": "gpt-4o-2024-08-06", | |
"u_math": [ | |
73.0909090909091, | |
82.66666666666667, | |
30.0 | |
], | |
"algebra": [ | |
0.8, | |
0.9533333333333334, | |
0.03333333333333333 | |
], | |
"differential_calc": [ | |
0.5545454545454546, | |
0.7, | |
0.24285714285714285 | |
], | |
"integral_calc": [ | |
0.625, | |
0.6733333333333333, | |
0.5 | |
], | |
"multivariable_calculus": [ | |
0.7303370786516854, | |
0.8066666666666666, | |
0.32142857142857145 | |
], | |
"precalculus_review": [ | |
0.925, | |
0.9733333333333334, | |
0.2 | |
], | |
"sequences_series": [ | |
0.8441558441558441, | |
0.8533333333333334, | |
0.5 | |
] | |
}, | |
{ | |
"model_name": "meta-llama/Llama-3.1-70B-Instruct", | |
"judge_model_name": "gpt-4o-2024-08-06", | |
"u_math": [ | |
34.27272727272727, | |
39.55555555555556, | |
10.5 | |
], | |
"algebra": [ | |
0.6555555555555556, | |
0.7866666666666666, | |
0.0 | |
], | |
"differential_calc": [ | |
0.15454545454545454, | |
0.15333333333333332, | |
0.15714285714285714 | |
], | |
"integral_calc": [ | |
0.14423076923076922, | |
0.16, | |
0.10344827586206896 | |
], | |
"multivariable_calculus": [ | |
0.2303370786516854, | |
0.26, | |
0.07142857142857142 | |
], | |
"precalculus_review": [ | |
0.63125, | |
0.6733333333333333, | |
0.0 | |
], | |
"sequences_series": [ | |
0.34415584415584416, | |
0.34, | |
0.5 | |
] | |
}, | |
{ | |
"model_name": "nvidia/Llama-3.1-Nemotron-70B-Instruct", | |
"judge_model_name": "gpt-4o-2024-08-06", | |
"u_math": [ | |
42.54545454545455, | |
47.66666666666667, | |
19.5 | |
], | |
"algebra": [ | |
0.7388888888888889, | |
0.84, | |
0.23333333333333334 | |
], | |
"differential_calc": [ | |
0.2681818181818182, | |
0.29333333333333333, | |
0.21428571428571427 | |
], | |
"integral_calc": [ | |
0.20673076923076922, | |
0.21333333333333335, | |
0.1896551724137931 | |
], | |
"multivariable_calculus": [ | |
0.3651685393258427, | |
0.4066666666666667, | |
0.14285714285714285 | |
], | |
"precalculus_review": [ | |
0.64375, | |
0.6733333333333333, | |
0.2 | |
], | |
"sequences_series": [ | |
0.42207792207792205, | |
0.43333333333333335, | |
0.0 | |
] | |
}, | |
{ | |
"model_name": "meta-llama/Llama-3.3-70B-Instruct", | |
"judge_model_name": "gpt-4o-2024-08-06", | |
"u_math": [ | |
44.72727272727273, | |
51.66666666666667, | |
13.5 | |
], | |
"algebra": [ | |
0.7055555555555556, | |
0.8333333333333334, | |
0.06666666666666667 | |
], | |
"differential_calc": [ | |
0.2772727272727273, | |
0.35333333333333333, | |
0.11428571428571428 | |
], | |
"integral_calc": [ | |
0.2548076923076923, | |
0.2733333333333333, | |
0.20689655172413793 | |
], | |
"multivariable_calculus": [ | |
0.42696629213483145, | |
0.4866666666666667, | |
0.10714285714285714 | |
], | |
"precalculus_review": [ | |
0.65, | |
0.6866666666666666, | |
0.1 | |
], | |
"sequences_series": [ | |
0.461038961038961, | |
0.4666666666666667, | |
0.25 | |
] | |
}, | |
{ | |
"model_name": "meta-llama/Llama-3.2-90B-Vision-Instruct", | |
"judge_model_name": "gpt-4o-2024-08-06", | |
"u_math": [ | |
37.18181818181818, | |
41.77777777777778, | |
16.5 | |
], | |
"algebra": [ | |
0.7222222222222222, | |
0.82, | |
0.23333333333333334 | |
], | |
"differential_calc": [ | |
0.2318181818181818, | |
0.21333333333333335, | |
0.2714285714285714 | |
], | |
"integral_calc": [ | |
0.09615384615384616, | |
0.11333333333333333, | |
0.05172413793103448 | |
], | |
"multivariable_calculus": [ | |
0.2696629213483146, | |
0.3, | |
0.10714285714285714 | |
], | |
"precalculus_review": [ | |
0.65625, | |
0.7, | |
0.0 | |
], | |
"sequences_series": [ | |
0.35714285714285715, | |
0.36, | |
0.25 | |
] | |
}, | |
{ | |
"model_name": "Qwen/Qwen2-VL-7B-Instruct", | |
"judge_model_name": "gpt-4o-2024-08-06", | |
"u_math": [ | |
26.272727272727277, | |
27.111111111111114, | |
22.5 | |
], | |
"algebra": [ | |
0.5055555555555555, | |
0.5866666666666667, | |
0.1 | |
], | |
"differential_calc": [ | |
0.24545454545454545, | |
0.18666666666666668, | |
0.37142857142857144 | |
], | |
"integral_calc": [ | |
0.12980769230769232, | |
0.11333333333333333, | |
0.1724137931034483 | |
], | |
"multivariable_calculus": [ | |
0.14606741573033707, | |
0.14, | |
0.17857142857142858 | |
], | |
"precalculus_review": [ | |
0.40625, | |
0.4266666666666667, | |
0.1 | |
], | |
"sequences_series": [ | |
0.16883116883116883, | |
0.17333333333333334, | |
0.0 | |
] | |
}, | |
{ | |
"model_name": "Qwen/Qwen2-VL-72B-Instruct", | |
"judge_model_name": "gpt-4o-2024-08-06", | |
"u_math": [ | |
41.81818181818181, | |
43.888888888888886, | |
32.5 | |
], | |
"algebra": [ | |
0.7111111111111111, | |
0.8, | |
0.26666666666666666 | |
], | |
"differential_calc": [ | |
0.3409090909090909, | |
0.29333333333333333, | |
0.44285714285714284 | |
], | |
"integral_calc": [ | |
0.23557692307692307, | |
0.22, | |
0.27586206896551724 | |
], | |
"multivariable_calculus": [ | |
0.3146067415730337, | |
0.32, | |
0.2857142857142857 | |
], | |
"precalculus_review": [ | |
0.625, | |
0.66, | |
0.1 | |
], | |
"sequences_series": [ | |
0.33766233766233766, | |
0.34, | |
0.25 | |
] | |
}, | |
{ | |
"model_name": "mistralai/Pixtral-12B-2409", | |
"judge_model_name": "gpt-4o-2024-08-06", | |
"u_math": [ | |
17.545454545454543, | |
17.888888888888886, | |
16.0 | |
], | |
"algebra": [ | |
0.37222222222222223, | |
0.4, | |
0.23333333333333334 | |
], | |
"differential_calc": [ | |
0.16818181818181818, | |
0.10666666666666667, | |
0.3 | |
], | |
"integral_calc": [ | |
0.04326923076923077, | |
0.04666666666666667, | |
0.034482758620689655 | |
], | |
"multivariable_calculus": [ | |
0.06741573033707865, | |
0.06666666666666667, | |
0.07142857142857142 | |
], | |
"precalculus_review": [ | |
0.3, | |
0.32, | |
0.0 | |
], | |
"sequences_series": [ | |
0.12987012987012986, | |
0.13333333333333333, | |
0.0 | |
] | |
}, | |
{ | |
"model_name": "mistralai/Pixtral-Large-Instruct-2411", | |
"judge_model_name": "gpt-4o-2024-08-06", | |
"u_math": [ | |
47.81818181818182, | |
51.44444444444445, | |
31.5 | |
], | |
"algebra": [ | |
0.7444444444444445, | |
0.8266666666666667, | |
0.3333333333333333 | |
], | |
"differential_calc": [ | |
0.3090909090909091, | |
0.3, | |
0.32857142857142857 | |
], | |
"integral_calc": [ | |
0.2692307692307692, | |
0.24666666666666667, | |
0.3275862068965517 | |
], | |
"multivariable_calculus": [ | |
0.43820224719101125, | |
0.4666666666666667, | |
0.2857142857142857 | |
], | |
"precalculus_review": [ | |
0.70625, | |
0.7333333333333333, | |
0.3 | |
], | |
"sequences_series": [ | |
0.5, | |
0.5133333333333333, | |
0.0 | |
] | |
}, | |
{ | |
"model_name": "microsoft/phi-4", | |
"judge_model_name": "gpt-4o-2024-08-06", | |
"u_math": [ | |
54.45454545454545, | |
58.333333333333336, | |
37.0 | |
], | |
"algebra": [ | |
0.8166666666666667, | |
0.8933333333333333, | |
0.43333333333333335 | |
], | |
"differential_calc": [ | |
0.42272727272727273, | |
0.4266666666666667, | |
0.4142857142857143 | |
], | |
"integral_calc": [ | |
0.28365384615384615, | |
0.25333333333333335, | |
0.3620689655172414 | |
], | |
"multivariable_calculus": [ | |
0.5056179775280899, | |
0.5466666666666666, | |
0.2857142857142857 | |
], | |
"precalculus_review": [ | |
0.84375, | |
0.88, | |
0.3 | |
], | |
"sequences_series": [ | |
0.487012987012987, | |
0.5, | |
0.0 | |
] | |
}, | |
{ | |
"model_name": "LFM-7B", | |
"judge_model_name": "gpt-4o-2024-08-06", | |
"u_math": [ | |
25.818181818181817, | |
28.000000000000004, | |
16.0 | |
], | |
"algebra": [ | |
0.5666666666666667, | |
0.6666666666666666, | |
0.06666666666666667 | |
], | |
"differential_calc": [ | |
0.13636363636363635, | |
0.08666666666666667, | |
0.24285714285714285 | |
], | |
"integral_calc": [ | |
0.0673076923076923, | |
0.04, | |
0.13793103448275862 | |
], | |
"multivariable_calculus": [ | |
0.12921348314606743, | |
0.13333333333333333, | |
0.10714285714285714 | |
], | |
"precalculus_review": [ | |
0.5625, | |
0.5866666666666667, | |
0.2 | |
], | |
"sequences_series": [ | |
0.16233766233766234, | |
0.16666666666666666, | |
0.0 | |
] | |
} | |
] |