[ { "model_name": "meta-llama/Llama-3.1-8B-Instruct", "judge_model_name": "gpt-4o-2024-08-06", "u_math": [ 29.545454545454547, 33.666666666666664, 11.0 ], "algebra": [ 0.5055555555555555, 0.6, 0.03333333333333333 ], "differential_calc": [ 0.15, 0.17333333333333334, 0.1 ], "integral_calc": [ 0.21634615384615385, 0.22666666666666666, 0.1896551724137931 ], "multivariable_calculus": [ 0.20224719101123595, 0.23333333333333334, 0.03571428571428571 ], "precalculus_review": [ 0.4875, 0.5066666666666667, 0.2 ], "sequences_series": [ 0.2727272727272727, 0.28, 0.0 ] }, { "model_name": "Qwen/Qwen2.5-7B-Instruct", "judge_model_name": "gpt-4o-2024-08-06", "u_math": [ 43.27272727272727, 50.44444444444445, 11.0 ], "algebra": [ 0.75, 0.86, 0.2 ], "differential_calc": [ 0.22272727272727272, 0.30666666666666664, 0.04285714285714286 ], "integral_calc": [ 0.28365384615384615, 0.32, 0.1896551724137931 ], "multivariable_calculus": [ 0.3146067415730337, 0.36666666666666664, 0.03571428571428571 ], "precalculus_review": [ 0.74375, 0.7866666666666666, 0.1 ], "sequences_series": [ 0.37662337662337664, 0.38666666666666666, 0.0 ] }, { "model_name": "Qwen/Qwen2.5-72B-Instruct", "judge_model_name": "gpt-4o-2024-08-06", "u_math": [ 51.18181818181819, 58.88888888888889, 16.5 ], "algebra": [ 0.7833333333333333, 0.9066666666666666, 0.16666666666666666 ], "differential_calc": [ 0.3, 0.36666666666666664, 0.15714285714285714 ], "integral_calc": [ 0.30288461538461536, 0.35333333333333333, 0.1724137931034483 ], "multivariable_calculus": [ 0.4606741573033708, 0.52, 0.14285714285714285 ], "precalculus_review": [ 0.79375, 0.84, 0.1 ], "sequences_series": [ 0.5454545454545454, 0.5466666666666666, 0.5 ] }, { "model_name": "Qwen/Qwen2.5-Math-7B-Instruct", "judge_model_name": "gpt-4o-2024-08-06", "u_math": [ 45.45454545454545, 53.0, 11.5 ], "algebra": [ 0.7166666666666667, 0.8466666666666667, 0.06666666666666667 ], "differential_calc": [ 0.24545454545454545, 0.32, 0.08571428571428572 ], "integral_calc": [ 0.22115384615384615, 0.24, 0.1724137931034483 ], "multivariable_calculus": [ 0.38764044943820225, 0.44, 0.10714285714285714 ], "precalculus_review": [ 0.7625, 0.8133333333333334, 0.0 ], "sequences_series": [ 0.5194805194805194, 0.52, 0.5 ] }, { "model_name": "Qwen/Qwen2.5-Math-72B-Instruct", "judge_model_name": "gpt-4o-2024-08-06", "u_math": [ 59.45454545454546, 68.66666666666667, 18.0 ], "algebra": [ 0.8, 0.9466666666666667, 0.06666666666666667 ], "differential_calc": [ 0.35454545454545455, 0.46, 0.12857142857142856 ], "integral_calc": [ 0.3894230769230769, 0.44, 0.25862068965517243 ], "multivariable_calculus": [ 0.6179775280898876, 0.6933333333333334, 0.21428571428571427 ], "precalculus_review": [ 0.84375, 0.8933333333333333, 0.1 ], "sequences_series": [ 0.6883116883116883, 0.6866666666666666, 0.75 ] }, { "model_name": "Nexusflow/Athene-V2-Chat", "judge_model_name": "gpt-4o-2024-08-06", "u_math": [ 54.90909090909091, 62.88888888888889, 19.0 ], "algebra": [ 0.7444444444444445, 0.8733333333333333, 0.1 ], "differential_calc": [ 0.36818181818181817, 0.43333333333333335, 0.22857142857142856 ], "integral_calc": [ 0.3125, 0.36666666666666664, 0.1724137931034483 ], "multivariable_calculus": [ 0.5561797752808989, 0.62, 0.21428571428571427 ], "precalculus_review": [ 0.85, 0.9066666666666666, 0.0 ], "sequences_series": [ 0.577922077922078, 0.5733333333333334, 0.75 ] }, { "model_name": "gpt-4o-mini-2024-07-18", "judge_model_name": "gpt-4o-2024-08-06", "u_math": [ 43.36363636363637, 47.22222222222222, 26.0 ], "algebra": [ 0.75, 0.8733333333333333, 0.13333333333333333 ], "differential_calc": [ 0.2818181818181818, 0.26, 0.32857142857142857 ], "integral_calc": [ 0.16826923076923078, 0.16666666666666666, 0.1724137931034483 ], "multivariable_calculus": [ 0.37640449438202245, 0.37333333333333335, 0.39285714285714285 ], "precalculus_review": [ 0.725, 0.76, 0.2 ], "sequences_series": [ 0.4025974025974026, 0.4, 0.5 ] }, { "model_name": "gpt-4o-2024-08-06", "judge_model_name": "gpt-4o-2024-08-06", "u_math": [ 50.18181818181818, 53.888888888888886, 33.5 ], "algebra": [ 0.8055555555555556, 0.9, 0.3333333333333333 ], "differential_calc": [ 0.32272727272727275, 0.3, 0.37142857142857144 ], "integral_calc": [ 0.27403846153846156, 0.2733333333333333, 0.27586206896551724 ], "multivariable_calculus": [ 0.48314606741573035, 0.49333333333333335, 0.42857142857142855 ], "precalculus_review": [ 0.76875, 0.8, 0.3 ], "sequences_series": [ 0.45454545454545453, 0.4666666666666667, 0.0 ] }, { "model_name": "gemini-1.5-flash", "judge_model_name": "gpt-4o-2024-08-06", "u_math": [ 57.81818181818181, 61.22222222222222, 42.5 ], "algebra": [ 0.8333333333333334, 0.9066666666666666, 0.4666666666666667 ], "differential_calc": [ 0.4727272727272727, 0.47333333333333333, 0.4714285714285714 ], "integral_calc": [ 0.3076923076923077, 0.30666666666666664, 0.3103448275862069 ], "multivariable_calculus": [ 0.550561797752809, 0.5533333333333333, 0.5357142857142857 ], "precalculus_review": [ 0.79375, 0.8266666666666667, 0.3 ], "sequences_series": [ 0.6038961038961039, 0.6066666666666667, 0.5 ] }, { "model_name": "gemini-1.5-pro", "judge_model_name": "gpt-4o-2024-08-06", "u_math": [ 60.0909, 63.4444, 45.0 ], "algebra": [ 0.8611, 0.9133, 0.6 ], "differential_calc": [ 0.4955, 0.5067, 0.4714 ], "integral_calc": [ 0.2644, 0.2733, 0.2414 ], "multivariable_calculus": [ 0.6011, 0.6067, 0.5714 ], "precalculus_review": [ 0.8625, 0.8733, 0.7 ], "sequences_series": [ 0.6299, 0.6333, 0.5 ] }, { "model_name": "claude-sonnet-3.5", "judge_model_name": "gpt-4o-2024-08-06", "u_math": [ 38.72727272727273, 40.666666666666664, 30.0 ], "algebra": [ 0.6777777777777778, 0.7533333333333333, 0.3 ], "differential_calc": [ 0.2727272727272727, 0.20666666666666667, 0.4142857142857143 ], "integral_calc": [ 0.12980769230769232, 0.12, 0.15517241379310345 ], "multivariable_calculus": [ 0.34269662921348315, 0.3333333333333333, 0.39285714285714285 ], "precalculus_review": [ 0.6125, 0.64, 0.2 ], "sequences_series": [ 0.37662337662337664, 0.38666666666666666, 0.0 ] }, { "model_name": "mistralai/Ministral-8B-Instruct-2410", "judge_model_name": "gpt-4o-2024-08-06", "u_math": [ 23.09090909090909, 26.88888888888889, 6.0 ], "algebra": [ 0.5111111111111111, 0.6, 0.06666666666666667 ], "differential_calc": [ 0.11818181818181818, 0.13333333333333333, 0.08571428571428572 ], "integral_calc": [ 0.08653846153846154, 0.1, 0.05172413793103448 ], "multivariable_calculus": [ 0.11235955056179775, 0.12666666666666668, 0.03571428571428571 ], "precalculus_review": [ 0.44375, 0.47333333333333333, 0.0 ], "sequences_series": [ 0.17532467532467533, 0.18, 0.0 ] }, { "model_name": "mistralai/Mistral-Large-Instruct-2411", "judge_model_name": "gpt-4o-2024-08-06", "u_math": [ 47.63636363636364, 55.55555555555556, 12.0 ], "algebra": [ 0.7333333333333333, 0.8533333333333334, 0.13333333333333333 ], "differential_calc": [ 0.24545454545454545, 0.32, 0.08571428571428572 ], "integral_calc": [ 0.3076923076923077, 0.36666666666666664, 0.15517241379310345 ], "multivariable_calculus": [ 0.4044943820224719, 0.4533333333333333, 0.14285714285714285 ], "precalculus_review": [ 0.73125, 0.78, 0.0 ], "sequences_series": [ 0.551948051948052, 0.56, 0.25 ] }, { "model_name": "deepseek-ai/DeepSeek-V3", "judge_model_name": "gpt-4o-2024-08-06", "u_math": [ 62.63636363636363, 69.33333333333334, 32.5 ], "algebra": [ 0.8166666666666667, 0.96, 0.1 ], "differential_calc": [ 0.4318181818181818, 0.49333333333333335, 0.3 ], "integral_calc": [ 0.3894230769230769, 0.38666666666666666, 0.39655172413793105 ], "multivariable_calculus": [ 0.651685393258427, 0.6933333333333334, 0.42857142857142855 ], "precalculus_review": [ 0.86875, 0.9, 0.4 ], "sequences_series": [ 0.7207792207792207, 0.7266666666666667, 0.5 ] }, { "model_name": "meta-llama/Llama-3.2-11B-Vision-Instruct", "judge_model_name": "gpt-4o-2024-08-06", "u_math": [ 20.363636363636363, 22.88888888888889, 9.0 ], "algebra": [ 0.4388888888888889, 0.52, 0.03333333333333333 ], "differential_calc": [ 0.11363636363636363, 0.07333333333333333, 0.2 ], "integral_calc": [ 0.019230769230769232, 0.013333333333333334, 0.034482758620689655 ], "multivariable_calculus": [ 0.11235955056179775, 0.13333333333333333, 0.0 ], "precalculus_review": [ 0.41875, 0.44, 0.1 ], "sequences_series": [ 0.18831168831168832, 0.19333333333333333, 0.0 ] }, { "model_name": "Qwen/QVQ-72B-Preview", "judge_model_name": "gpt-4o-2024-08-06", "u_math": [ 65.0, 69.66666666666667, 44.0 ], "algebra": [ 0.8388888888888889, 0.94, 0.3333333333333333 ], "differential_calc": [ 0.5, 0.54, 0.4142857142857143 ], "integral_calc": [ 0.4519230769230769, 0.41333333333333333, 0.5517241379310345 ], "multivariable_calculus": [ 0.6292134831460674, 0.6533333333333333, 0.5 ], "precalculus_review": [ 0.9125, 0.9533333333333334, 0.3 ], "sequences_series": [ 0.6623376623376623, 0.68, 0.0 ] }, { "model_name": "mistralai/Mistral-Small-Instruct-2501", "judge_model_name": "gpt-4o-2024-08-06", "u_math": [ 34.81818181818182, 39.88888888888889, 12.0 ], "algebra": [ 0.6944444444444444, 0.8066666666666666, 0.13333333333333333 ], "differential_calc": [ 0.12272727272727273, 0.13333333333333333, 0.1 ], "integral_calc": [ 0.13942307692307693, 0.13333333333333333, 0.15517241379310345 ], "multivariable_calculus": [ 0.23595505617977527, 0.25333333333333335, 0.14285714285714285 ], "precalculus_review": [ 0.6625, 0.7066666666666667, 0.0 ], "sequences_series": [ 0.35064935064935066, 0.36, 0.0 ] }, { "model_name": "Qwen/Qwen2.5-32B-Instruct", "judge_model_name": "gpt-4o-2024-08-06", "u_math": [ 52.36363636363637, 60.44444444444444, 16.0 ], "algebra": [ 0.7888888888888889, 0.92, 0.13333333333333333 ], "differential_calc": [ 0.32727272727272727, 0.4266666666666667, 0.11428571428571428 ], "integral_calc": [ 0.32211538461538464, 0.3466666666666667, 0.25862068965517243 ], "multivariable_calculus": [ 0.449438202247191, 0.5, 0.17857142857142858 ], "precalculus_review": [ 0.8, 0.8533333333333334, 0.0 ], "sequences_series": [ 0.564935064935065, 0.58, 0.0 ] }, { "model_name": "gemini-2.0-flash-thinking-exp-01-21", "judge_model_name": "gpt-4o-2024-08-06", "u_math": [ 83.63636363636363, 89.22222222222223, 58.5 ], "algebra": [ 0.8944444444444445, 0.9533333333333334, 0.6 ], "differential_calc": [ 0.7045454545454546, 0.8066666666666666, 0.4857142857142857 ], "integral_calc": [ 0.8221153846153846, 0.8866666666666667, 0.6551724137931034 ], "multivariable_calculus": [ 0.8370786516853933, 0.8533333333333334, 0.75 ], "precalculus_review": [ 0.925, 0.9533333333333334, 0.5 ], "sequences_series": [ 0.8831168831168831, 0.9, 0.25 ] }, { "model_name": "o1-mini", "judge_model_name": "gpt-4o-2024-08-06", "u_math": [ 76.27272727272727, 82.88888888888889, 46.5 ], "algebra": [ 0.8777777777777778, 0.9733333333333334, 0.4 ], "differential_calc": [ 0.6818181818181818, 0.7533333333333333, 0.5285714285714286 ], "integral_calc": [ 0.6490384615384616, 0.72, 0.46551724137931033 ], "multivariable_calculus": [ 0.7303370786516854, 0.7866666666666666, 0.42857142857142855 ], "precalculus_review": [ 0.925, 0.9666666666666667, 0.3 ], "sequences_series": [ 0.7662337662337663, 0.7733333333333333, 0.5 ] }, { "model_name": "o1", "judge_model_name": "gpt-4o-2024-08-06", "u_math": [ 86.81818181818181, 93.11111111111111, 58.5 ], "algebra": [ 0.8944444444444445, 0.9733333333333334, 0.5 ], "differential_calc": [ 0.7681818181818182, 0.86, 0.5714285714285714 ], "integral_calc": [ 0.8317307692307693, 0.9066666666666666, 0.6379310344827587 ], "multivariable_calculus": [ 0.8707865168539326, 0.92, 0.6071428571428571 ], "precalculus_review": [ 0.9625, 0.9933333333333333, 0.5 ], "sequences_series": [ 0.9285714285714286, 0.9333333333333333, 0.75 ] }, { "model_name": "o3-mini", "judge_model_name": "gpt-4o-2024-08-06", "u_math": [ 82.18181818181817, 92.77777777777779, 34.5 ], "algebra": [ 0.8444444444444444, 0.9933333333333333, 0.1 ], "differential_calc": [ 0.6545454545454545, 0.88, 0.17142857142857143 ], "integral_calc": [ 0.8221153846153846, 0.9066666666666666, 0.603448275862069 ], "multivariable_calculus": [ 0.797752808988764, 0.8533333333333334, 0.5 ], "precalculus_review": [ 0.94375, 0.9933333333333333, 0.2 ], "sequences_series": [ 0.935064935064935, 0.94, 0.75 ] }, { "model_name": "deepseek-ai/DeepSeek-R1", "judge_model_name": "gpt-4o-2024-08-06", "u_math": [ 80.72727272727272, 91.33333333333333, 33.0 ], "algebra": [ 0.8333333333333334, 0.9666666666666667, 0.16666666666666666 ], "differential_calc": [ 0.6545454545454545, 0.8533333333333334, 0.22857142857142856 ], "integral_calc": [ 0.7692307692307693, 0.8733333333333333, 0.5 ], "multivariable_calculus": [ 0.797752808988764, 0.8666666666666667, 0.42857142857142855 ], "precalculus_review": [ 0.93125, 0.9866666666666667, 0.1 ], "sequences_series": [ 0.9285714285714286, 0.9333333333333333, 0.75 ] }, { "model_name": "Qwen/QwQ-32B-Preview", "judge_model_name": "gpt-4o-2024-08-06", "u_math": [ 73.0909090909091, 82.66666666666667, 30.0 ], "algebra": [ 0.8, 0.9533333333333334, 0.03333333333333333 ], "differential_calc": [ 0.5545454545454546, 0.7, 0.24285714285714285 ], "integral_calc": [ 0.625, 0.6733333333333333, 0.5 ], "multivariable_calculus": [ 0.7303370786516854, 0.8066666666666666, 0.32142857142857145 ], "precalculus_review": [ 0.925, 0.9733333333333334, 0.2 ], "sequences_series": [ 0.8441558441558441, 0.8533333333333334, 0.5 ] }, { "model_name": "meta-llama/Llama-3.1-70B-Instruct", "judge_model_name": "gpt-4o-2024-08-06", "u_math": [ 34.27272727272727, 39.55555555555556, 10.5 ], "algebra": [ 0.6555555555555556, 0.7866666666666666, 0.0 ], "differential_calc": [ 0.15454545454545454, 0.15333333333333332, 0.15714285714285714 ], "integral_calc": [ 0.14423076923076922, 0.16, 0.10344827586206896 ], "multivariable_calculus": [ 0.2303370786516854, 0.26, 0.07142857142857142 ], "precalculus_review": [ 0.63125, 0.6733333333333333, 0.0 ], "sequences_series": [ 0.34415584415584416, 0.34, 0.5 ] }, { "model_name": "nvidia/Llama-3.1-Nemotron-70B-Instruct", "judge_model_name": "gpt-4o-2024-08-06", "u_math": [ 42.54545454545455, 47.66666666666667, 19.5 ], "algebra": [ 0.7388888888888889, 0.84, 0.23333333333333334 ], "differential_calc": [ 0.2681818181818182, 0.29333333333333333, 0.21428571428571427 ], "integral_calc": [ 0.20673076923076922, 0.21333333333333335, 0.1896551724137931 ], "multivariable_calculus": [ 0.3651685393258427, 0.4066666666666667, 0.14285714285714285 ], "precalculus_review": [ 0.64375, 0.6733333333333333, 0.2 ], "sequences_series": [ 0.42207792207792205, 0.43333333333333335, 0.0 ] }, { "model_name": "meta-llama/Llama-3.3-70B-Instruct", "judge_model_name": "gpt-4o-2024-08-06", "u_math": [ 44.72727272727273, 51.66666666666667, 13.5 ], "algebra": [ 0.7055555555555556, 0.8333333333333334, 0.06666666666666667 ], "differential_calc": [ 0.2772727272727273, 0.35333333333333333, 0.11428571428571428 ], "integral_calc": [ 0.2548076923076923, 0.2733333333333333, 0.20689655172413793 ], "multivariable_calculus": [ 0.42696629213483145, 0.4866666666666667, 0.10714285714285714 ], "precalculus_review": [ 0.65, 0.6866666666666666, 0.1 ], "sequences_series": [ 0.461038961038961, 0.4666666666666667, 0.25 ] }, { "model_name": "meta-llama/Llama-3.2-90B-Vision-Instruct", "judge_model_name": "gpt-4o-2024-08-06", "u_math": [ 37.18181818181818, 41.77777777777778, 16.5 ], "algebra": [ 0.7222222222222222, 0.82, 0.23333333333333334 ], "differential_calc": [ 0.2318181818181818, 0.21333333333333335, 0.2714285714285714 ], "integral_calc": [ 0.09615384615384616, 0.11333333333333333, 0.05172413793103448 ], "multivariable_calculus": [ 0.2696629213483146, 0.3, 0.10714285714285714 ], "precalculus_review": [ 0.65625, 0.7, 0.0 ], "sequences_series": [ 0.35714285714285715, 0.36, 0.25 ] }, { "model_name": "Qwen/Qwen2-VL-7B-Instruct", "judge_model_name": "gpt-4o-2024-08-06", "u_math": [ 26.272727272727277, 27.111111111111114, 22.5 ], "algebra": [ 0.5055555555555555, 0.5866666666666667, 0.1 ], "differential_calc": [ 0.24545454545454545, 0.18666666666666668, 0.37142857142857144 ], "integral_calc": [ 0.12980769230769232, 0.11333333333333333, 0.1724137931034483 ], "multivariable_calculus": [ 0.14606741573033707, 0.14, 0.17857142857142858 ], "precalculus_review": [ 0.40625, 0.4266666666666667, 0.1 ], "sequences_series": [ 0.16883116883116883, 0.17333333333333334, 0.0 ] }, { "model_name": "Qwen/Qwen2-VL-72B-Instruct", "judge_model_name": "gpt-4o-2024-08-06", "u_math": [ 41.81818181818181, 43.888888888888886, 32.5 ], "algebra": [ 0.7111111111111111, 0.8, 0.26666666666666666 ], "differential_calc": [ 0.3409090909090909, 0.29333333333333333, 0.44285714285714284 ], "integral_calc": [ 0.23557692307692307, 0.22, 0.27586206896551724 ], "multivariable_calculus": [ 0.3146067415730337, 0.32, 0.2857142857142857 ], "precalculus_review": [ 0.625, 0.66, 0.1 ], "sequences_series": [ 0.33766233766233766, 0.34, 0.25 ] }, { "model_name": "mistralai/Pixtral-12B-2409", "judge_model_name": "gpt-4o-2024-08-06", "u_math": [ 17.545454545454543, 17.888888888888886, 16.0 ], "algebra": [ 0.37222222222222223, 0.4, 0.23333333333333334 ], "differential_calc": [ 0.16818181818181818, 0.10666666666666667, 0.3 ], "integral_calc": [ 0.04326923076923077, 0.04666666666666667, 0.034482758620689655 ], "multivariable_calculus": [ 0.06741573033707865, 0.06666666666666667, 0.07142857142857142 ], "precalculus_review": [ 0.3, 0.32, 0.0 ], "sequences_series": [ 0.12987012987012986, 0.13333333333333333, 0.0 ] }, { "model_name": "mistralai/Pixtral-Large-Instruct-2411", "judge_model_name": "gpt-4o-2024-08-06", "u_math": [ 47.81818181818182, 51.44444444444445, 31.5 ], "algebra": [ 0.7444444444444445, 0.8266666666666667, 0.3333333333333333 ], "differential_calc": [ 0.3090909090909091, 0.3, 0.32857142857142857 ], "integral_calc": [ 0.2692307692307692, 0.24666666666666667, 0.3275862068965517 ], "multivariable_calculus": [ 0.43820224719101125, 0.4666666666666667, 0.2857142857142857 ], "precalculus_review": [ 0.70625, 0.7333333333333333, 0.3 ], "sequences_series": [ 0.5, 0.5133333333333333, 0.0 ] }, { "model_name": "microsoft/phi-4", "judge_model_name": "gpt-4o-2024-08-06", "u_math": [ 54.45454545454545, 58.333333333333336, 37.0 ], "algebra": [ 0.8166666666666667, 0.8933333333333333, 0.43333333333333335 ], "differential_calc": [ 0.42272727272727273, 0.4266666666666667, 0.4142857142857143 ], "integral_calc": [ 0.28365384615384615, 0.25333333333333335, 0.3620689655172414 ], "multivariable_calculus": [ 0.5056179775280899, 0.5466666666666666, 0.2857142857142857 ], "precalculus_review": [ 0.84375, 0.88, 0.3 ], "sequences_series": [ 0.487012987012987, 0.5, 0.0 ] }, { "model_name": "LFM-7B", "judge_model_name": "gpt-4o-2024-08-06", "u_math": [ 25.818181818181817, 28.000000000000004, 16.0 ], "algebra": [ 0.5666666666666667, 0.6666666666666666, 0.06666666666666667 ], "differential_calc": [ 0.13636363636363635, 0.08666666666666667, 0.24285714285714285 ], "integral_calc": [ 0.0673076923076923, 0.04, 0.13793103448275862 ], "multivariable_calculus": [ 0.12921348314606743, 0.13333333333333333, 0.10714285714285714 ], "precalculus_review": [ 0.5625, 0.5866666666666667, 0.2 ], "sequences_series": [ 0.16233766233766234, 0.16666666666666666, 0.0 ] } ]