Spaces:

toloka
/

u-math-leaderboard

Running

App Files Files Community

u-math-leaderboard / data /u_math_eval_results.json

cogwheelhead

data: add pixtral small

7c38266 verified 9 days ago

raw

history blame contribute delete

32.3 kB

	[
	{
	"model_name": "meta-llama/Llama-3.1-8B-Instruct",
	"judge_model_name": "gpt-4o-2024-08-06",
	"u_math": [
	29.545454545454547,
	33.666666666666664,
	11.0
	],
	"algebra": [
	0.5055555555555555,
	0.6,
	0.03333333333333333
	],
	"differential_calc": [
	0.15,
	0.17333333333333334,
	0.1
	],
	"integral_calc": [
	0.21634615384615385,
	0.22666666666666666,
	0.1896551724137931
	],
	"multivariable_calculus": [
	0.20224719101123595,
	0.23333333333333334,
	0.03571428571428571
	],
	"precalculus_review": [
	0.4875,
	0.5066666666666667,
	0.2
	],
	"sequences_series": [
	0.2727272727272727,
	0.28,
	0.0
	]
	},
	{
	"model_name": "Qwen/Qwen2.5-7B-Instruct",
	"judge_model_name": "gpt-4o-2024-08-06",
	"u_math": [
	43.27272727272727,
	50.44444444444445,
	11.0
	],
	"algebra": [
	0.75,
	0.86,
	0.2
	],
	"differential_calc": [
	0.22272727272727272,
	0.30666666666666664,
	0.04285714285714286
	],
	"integral_calc": [
	0.28365384615384615,
	0.32,
	0.1896551724137931
	],
	"multivariable_calculus": [
	0.3146067415730337,
	0.36666666666666664,
	0.03571428571428571
	],
	"precalculus_review": [
	0.74375,
	0.7866666666666666,
	0.1
	],
	"sequences_series": [
	0.37662337662337664,
	0.38666666666666666,
	0.0
	]
	},
	{
	"model_name": "Qwen/Qwen2.5-72B-Instruct",
	"judge_model_name": "gpt-4o-2024-08-06",
	"u_math": [
	51.18181818181819,
	58.88888888888889,
	16.5
	],
	"algebra": [
	0.7833333333333333,
	0.9066666666666666,
	0.16666666666666666
	],
	"differential_calc": [
	0.3,
	0.36666666666666664,
	0.15714285714285714
	],
	"integral_calc": [
	0.30288461538461536,
	0.35333333333333333,
	0.1724137931034483
	],
	"multivariable_calculus": [
	0.4606741573033708,
	0.52,
	0.14285714285714285
	],
	"precalculus_review": [
	0.79375,
	0.84,
	0.1
	],
	"sequences_series": [
	0.5454545454545454,
	0.5466666666666666,
	0.5
	]
	},
	{
	"model_name": "Qwen/Qwen2.5-Math-7B-Instruct",
	"judge_model_name": "gpt-4o-2024-08-06",
	"u_math": [
	45.45454545454545,
	53.0,
	11.5
	],
	"algebra": [
	0.7166666666666667,
	0.8466666666666667,
	0.06666666666666667
	],
	"differential_calc": [
	0.24545454545454545,
	0.32,
	0.08571428571428572
	],
	"integral_calc": [
	0.22115384615384615,
	0.24,
	0.1724137931034483
	],
	"multivariable_calculus": [
	0.38764044943820225,
	0.44,
	0.10714285714285714
	],
	"precalculus_review": [
	0.7625,
	0.8133333333333334,
	0.0
	],
	"sequences_series": [
	0.5194805194805194,
	0.52,
	0.5
	]
	},
	{
	"model_name": "Qwen/Qwen2.5-Math-72B-Instruct",
	"judge_model_name": "gpt-4o-2024-08-06",
	"u_math": [
	59.45454545454546,
	68.66666666666667,
	18.0
	],
	"algebra": [
	0.8,
	0.9466666666666667,
	0.06666666666666667
	],
	"differential_calc": [
	0.35454545454545455,
	0.46,
	0.12857142857142856
	],
	"integral_calc": [
	0.3894230769230769,
	0.44,
	0.25862068965517243
	],
	"multivariable_calculus": [
	0.6179775280898876,
	0.6933333333333334,
	0.21428571428571427
	],
	"precalculus_review": [
	0.84375,
	0.8933333333333333,
	0.1
	],
	"sequences_series": [
	0.6883116883116883,
	0.6866666666666666,
	0.75
	]
	},
	{
	"model_name": "Nexusflow/Athene-V2-Chat",
	"judge_model_name": "gpt-4o-2024-08-06",
	"u_math": [
	54.90909090909091,
	62.88888888888889,
	19.0
	],
	"algebra": [
	0.7444444444444445,
	0.8733333333333333,
	0.1
	],
	"differential_calc": [
	0.36818181818181817,
	0.43333333333333335,
	0.22857142857142856
	],
	"integral_calc": [
	0.3125,
	0.36666666666666664,
	0.1724137931034483
	],
	"multivariable_calculus": [
	0.5561797752808989,
	0.62,
	0.21428571428571427
	],
	"precalculus_review": [
	0.85,
	0.9066666666666666,
	0.0
	],
	"sequences_series": [
	0.577922077922078,
	0.5733333333333334,
	0.75
	]
	},
	{
	"model_name": "gpt-4o-mini-2024-07-18",
	"judge_model_name": "gpt-4o-2024-08-06",
	"u_math": [
	43.36363636363637,
	47.22222222222222,
	26.0
	],
	"algebra": [
	0.75,
	0.8733333333333333,
	0.13333333333333333
	],
	"differential_calc": [
	0.2818181818181818,
	0.26,
	0.32857142857142857
	],
	"integral_calc": [
	0.16826923076923078,
	0.16666666666666666,
	0.1724137931034483
	],
	"multivariable_calculus": [
	0.37640449438202245,
	0.37333333333333335,
	0.39285714285714285
	],
	"precalculus_review": [
	0.725,
	0.76,
	0.2
	],
	"sequences_series": [
	0.4025974025974026,
	0.4,
	0.5
	]
	},
	{
	"model_name": "gpt-4o-2024-08-06",
	"judge_model_name": "gpt-4o-2024-08-06",
	"u_math": [
	50.18181818181818,
	53.888888888888886,
	33.5
	],
	"algebra": [
	0.8055555555555556,
	0.9,
	0.3333333333333333
	],
	"differential_calc": [
	0.32272727272727275,
	0.3,
	0.37142857142857144
	],
	"integral_calc": [
	0.27403846153846156,
	0.2733333333333333,
	0.27586206896551724
	],
	"multivariable_calculus": [
	0.48314606741573035,
	0.49333333333333335,
	0.42857142857142855
	],
	"precalculus_review": [
	0.76875,
	0.8,
	0.3
	],
	"sequences_series": [
	0.45454545454545453,
	0.4666666666666667,
	0.0
	]
	},
	{
	"model_name": "gemini-1.5-flash",
	"judge_model_name": "gpt-4o-2024-08-06",
	"u_math": [
	57.81818181818181,
	61.22222222222222,
	42.5
	],
	"algebra": [
	0.8333333333333334,
	0.9066666666666666,
	0.4666666666666667
	],
	"differential_calc": [
	0.4727272727272727,
	0.47333333333333333,
	0.4714285714285714
	],
	"integral_calc": [
	0.3076923076923077,
	0.30666666666666664,
	0.3103448275862069
	],
	"multivariable_calculus": [
	0.550561797752809,
	0.5533333333333333,
	0.5357142857142857
	],
	"precalculus_review": [
	0.79375,
	0.8266666666666667,
	0.3
	],
	"sequences_series": [
	0.6038961038961039,
	0.6066666666666667,
	0.5
	]
	},
	{
	"model_name": "gemini-1.5-pro",
	"judge_model_name": "gpt-4o-2024-08-06",
	"u_math": [
	60.0909,
	63.4444,
	45.0
	],
	"algebra": [
	0.8611,
	0.9133,
	0.6
	],
	"differential_calc": [
	0.4955,
	0.5067,
	0.4714
	],
	"integral_calc": [
	0.2644,
	0.2733,
	0.2414
	],
	"multivariable_calculus": [
	0.6011,
	0.6067,
	0.5714
	],
	"precalculus_review": [
	0.8625,
	0.8733,
	0.7
	],
	"sequences_series": [
	0.6299,
	0.6333,
	0.5
	]
	},
	{
	"model_name": "claude-sonnet-3.5",
	"judge_model_name": "gpt-4o-2024-08-06",
	"u_math": [
	38.72727272727273,
	40.666666666666664,
	30.0
	],
	"algebra": [
	0.6777777777777778,
	0.7533333333333333,
	0.3
	],
	"differential_calc": [
	0.2727272727272727,
	0.20666666666666667,
	0.4142857142857143
	],
	"integral_calc": [
	0.12980769230769232,
	0.12,
	0.15517241379310345
	],
	"multivariable_calculus": [
	0.34269662921348315,
	0.3333333333333333,
	0.39285714285714285
	],
	"precalculus_review": [
	0.6125,
	0.64,
	0.2
	],
	"sequences_series": [
	0.37662337662337664,
	0.38666666666666666,
	0.0
	]
	},
	{
	"model_name": "mistralai/Ministral-8B-Instruct-2410",
	"judge_model_name": "gpt-4o-2024-08-06",
	"u_math": [
	23.09090909090909,
	26.88888888888889,
	6.0
	],
	"algebra": [
	0.5111111111111111,
	0.6,
	0.06666666666666667
	],
	"differential_calc": [
	0.11818181818181818,
	0.13333333333333333,
	0.08571428571428572
	],
	"integral_calc": [
	0.08653846153846154,
	0.1,
	0.05172413793103448
	],
	"multivariable_calculus": [
	0.11235955056179775,
	0.12666666666666668,
	0.03571428571428571
	],
	"precalculus_review": [
	0.44375,
	0.47333333333333333,
	0.0
	],
	"sequences_series": [
	0.17532467532467533,
	0.18,
	0.0
	]
	},
	{
	"model_name": "mistralai/Mistral-Large-Instruct-2411",
	"judge_model_name": "gpt-4o-2024-08-06",
	"u_math": [
	47.63636363636364,
	55.55555555555556,
	12.0
	],
	"algebra": [
	0.7333333333333333,
	0.8533333333333334,
	0.13333333333333333
	],
	"differential_calc": [
	0.24545454545454545,
	0.32,
	0.08571428571428572
	],
	"integral_calc": [
	0.3076923076923077,
	0.36666666666666664,
	0.15517241379310345
	],
	"multivariable_calculus": [
	0.4044943820224719,
	0.4533333333333333,
	0.14285714285714285
	],
	"precalculus_review": [
	0.73125,
	0.78,
	0.0
	],
	"sequences_series": [
	0.551948051948052,
	0.56,
	0.25
	]
	},
	{
	"model_name": "deepseek-ai/DeepSeek-V3",
	"judge_model_name": "gpt-4o-2024-08-06",
	"u_math": [
	62.63636363636363,
	69.33333333333334,
	32.5
	],
	"algebra": [
	0.8166666666666667,
	0.96,
	0.1
	],
	"differential_calc": [
	0.4318181818181818,
	0.49333333333333335,
	0.3
	],
	"integral_calc": [
	0.3894230769230769,
	0.38666666666666666,
	0.39655172413793105
	],
	"multivariable_calculus": [
	0.651685393258427,
	0.6933333333333334,
	0.42857142857142855
	],
	"precalculus_review": [
	0.86875,
	0.9,
	0.4
	],
	"sequences_series": [
	0.7207792207792207,
	0.7266666666666667,
	0.5
	]
	},
	{
	"model_name": "meta-llama/Llama-3.2-11B-Vision-Instruct",
	"judge_model_name": "gpt-4o-2024-08-06",
	"u_math": [
	20.363636363636363,
	22.88888888888889,
	9.0
	],
	"algebra": [
	0.4388888888888889,
	0.52,
	0.03333333333333333
	],
	"differential_calc": [
	0.11363636363636363,
	0.07333333333333333,
	0.2
	],
	"integral_calc": [
	0.019230769230769232,
	0.013333333333333334,
	0.034482758620689655
	],
	"multivariable_calculus": [
	0.11235955056179775,
	0.13333333333333333,
	0.0
	],
	"precalculus_review": [
	0.41875,
	0.44,
	0.1
	],
	"sequences_series": [
	0.18831168831168832,
	0.19333333333333333,
	0.0
	]
	},
	{
	"model_name": "Qwen/QVQ-72B-Preview",
	"judge_model_name": "gpt-4o-2024-08-06",
	"u_math": [
	65.0,
	69.66666666666667,
	44.0
	],
	"algebra": [
	0.8388888888888889,
	0.94,
	0.3333333333333333
	],
	"differential_calc": [
	0.5,
	0.54,
	0.4142857142857143
	],
	"integral_calc": [
	0.4519230769230769,
	0.41333333333333333,
	0.5517241379310345
	],
	"multivariable_calculus": [
	0.6292134831460674,
	0.6533333333333333,
	0.5
	],
	"precalculus_review": [
	0.9125,
	0.9533333333333334,
	0.3
	],
	"sequences_series": [
	0.6623376623376623,
	0.68,
	0.0
	]
	},
	{
	"model_name": "mistralai/Mistral-Small-Instruct-2501",
	"judge_model_name": "gpt-4o-2024-08-06",
	"u_math": [
	34.81818181818182,
	39.88888888888889,
	12.0
	],
	"algebra": [
	0.6944444444444444,
	0.8066666666666666,
	0.13333333333333333
	],
	"differential_calc": [
	0.12272727272727273,
	0.13333333333333333,
	0.1
	],
	"integral_calc": [
	0.13942307692307693,
	0.13333333333333333,
	0.15517241379310345
	],
	"multivariable_calculus": [
	0.23595505617977527,
	0.25333333333333335,
	0.14285714285714285
	],
	"precalculus_review": [
	0.6625,
	0.7066666666666667,
	0.0
	],
	"sequences_series": [
	0.35064935064935066,
	0.36,
	0.0
	]
	},
	{
	"model_name": "Qwen/Qwen2.5-32B-Instruct",
	"judge_model_name": "gpt-4o-2024-08-06",
	"u_math": [
	52.36363636363637,
	60.44444444444444,
	16.0
	],
	"algebra": [
	0.7888888888888889,
	0.92,
	0.13333333333333333
	],
	"differential_calc": [
	0.32727272727272727,
	0.4266666666666667,
	0.11428571428571428
	],
	"integral_calc": [
	0.32211538461538464,
	0.3466666666666667,
	0.25862068965517243
	],
	"multivariable_calculus": [
	0.449438202247191,
	0.5,
	0.17857142857142858
	],
	"precalculus_review": [
	0.8,
	0.8533333333333334,
	0.0
	],
	"sequences_series": [
	0.564935064935065,
	0.58,
	0.0
	]
	},
	{
	"model_name": "gemini-2.0-flash-thinking-exp-01-21",
	"judge_model_name": "gpt-4o-2024-08-06",
	"u_math": [
	83.63636363636363,
	89.22222222222223,
	58.5
	],
	"algebra": [
	0.8944444444444445,
	0.9533333333333334,
	0.6
	],
	"differential_calc": [
	0.7045454545454546,
	0.8066666666666666,
	0.4857142857142857
	],
	"integral_calc": [
	0.8221153846153846,
	0.8866666666666667,
	0.6551724137931034
	],
	"multivariable_calculus": [
	0.8370786516853933,
	0.8533333333333334,
	0.75
	],
	"precalculus_review": [
	0.925,
	0.9533333333333334,
	0.5
	],
	"sequences_series": [
	0.8831168831168831,
	0.9,
	0.25
	]
	},
	{
	"model_name": "o1-mini",
	"judge_model_name": "gpt-4o-2024-08-06",
	"u_math": [
	76.27272727272727,
	82.88888888888889,
	46.5
	],
	"algebra": [
	0.8777777777777778,
	0.9733333333333334,
	0.4
	],
	"differential_calc": [
	0.6818181818181818,
	0.7533333333333333,
	0.5285714285714286
	],
	"integral_calc": [
	0.6490384615384616,
	0.72,
	0.46551724137931033
	],
	"multivariable_calculus": [
	0.7303370786516854,
	0.7866666666666666,
	0.42857142857142855
	],
	"precalculus_review": [
	0.925,
	0.9666666666666667,
	0.3
	],
	"sequences_series": [
	0.7662337662337663,
	0.7733333333333333,
	0.5
	]
	},
	{
	"model_name": "o1",
	"judge_model_name": "gpt-4o-2024-08-06",
	"u_math": [
	86.81818181818181,
	93.11111111111111,
	58.5
	],
	"algebra": [
	0.8944444444444445,
	0.9733333333333334,
	0.5
	],
	"differential_calc": [
	0.7681818181818182,
	0.86,
	0.5714285714285714
	],
	"integral_calc": [
	0.8317307692307693,
	0.9066666666666666,
	0.6379310344827587
	],
	"multivariable_calculus": [
	0.8707865168539326,
	0.92,
	0.6071428571428571
	],
	"precalculus_review": [
	0.9625,
	0.9933333333333333,
	0.5
	],
	"sequences_series": [
	0.9285714285714286,
	0.9333333333333333,
	0.75
	]
	},
	{
	"model_name": "o3-mini",
	"judge_model_name": "gpt-4o-2024-08-06",
	"u_math": [
	82.18181818181817,
	92.77777777777779,
	34.5
	],
	"algebra": [
	0.8444444444444444,
	0.9933333333333333,
	0.1
	],
	"differential_calc": [
	0.6545454545454545,
	0.88,
	0.17142857142857143
	],
	"integral_calc": [
	0.8221153846153846,
	0.9066666666666666,
	0.603448275862069
	],
	"multivariable_calculus": [
	0.797752808988764,
	0.8533333333333334,
	0.5
	],
	"precalculus_review": [
	0.94375,
	0.9933333333333333,
	0.2
	],
	"sequences_series": [
	0.935064935064935,
	0.94,
	0.75
	]
	},
	{
	"model_name": "deepseek-ai/DeepSeek-R1",
	"judge_model_name": "gpt-4o-2024-08-06",
	"u_math": [
	80.72727272727272,
	91.33333333333333,
	33.0
	],
	"algebra": [
	0.8333333333333334,
	0.9666666666666667,
	0.16666666666666666
	],
	"differential_calc": [
	0.6545454545454545,
	0.8533333333333334,
	0.22857142857142856
	],
	"integral_calc": [
	0.7692307692307693,
	0.8733333333333333,
	0.5
	],
	"multivariable_calculus": [
	0.797752808988764,
	0.8666666666666667,
	0.42857142857142855
	],
	"precalculus_review": [
	0.93125,
	0.9866666666666667,
	0.1
	],
	"sequences_series": [
	0.9285714285714286,
	0.9333333333333333,
	0.75
	]
	},
	{
	"model_name": "Qwen/QwQ-32B-Preview",
	"judge_model_name": "gpt-4o-2024-08-06",
	"u_math": [
	73.0909090909091,
	82.66666666666667,
	30.0
	],
	"algebra": [
	0.8,
	0.9533333333333334,
	0.03333333333333333
	],
	"differential_calc": [
	0.5545454545454546,
	0.7,
	0.24285714285714285
	],
	"integral_calc": [
	0.625,
	0.6733333333333333,
	0.5
	],
	"multivariable_calculus": [
	0.7303370786516854,
	0.8066666666666666,
	0.32142857142857145
	],
	"precalculus_review": [
	0.925,
	0.9733333333333334,
	0.2
	],
	"sequences_series": [
	0.8441558441558441,
	0.8533333333333334,
	0.5
	]
	},
	{
	"model_name": "meta-llama/Llama-3.1-70B-Instruct",
	"judge_model_name": "gpt-4o-2024-08-06",
	"u_math": [
	34.27272727272727,
	39.55555555555556,
	10.5
	],
	"algebra": [
	0.6555555555555556,
	0.7866666666666666,
	0.0
	],
	"differential_calc": [
	0.15454545454545454,
	0.15333333333333332,
	0.15714285714285714
	],
	"integral_calc": [
	0.14423076923076922,
	0.16,
	0.10344827586206896
	],
	"multivariable_calculus": [
	0.2303370786516854,
	0.26,
	0.07142857142857142
	],
	"precalculus_review": [
	0.63125,
	0.6733333333333333,
	0.0
	],
	"sequences_series": [
	0.34415584415584416,
	0.34,
	0.5
	]
	},
	{
	"model_name": "nvidia/Llama-3.1-Nemotron-70B-Instruct",
	"judge_model_name": "gpt-4o-2024-08-06",
	"u_math": [
	42.54545454545455,
	47.66666666666667,
	19.5
	],
	"algebra": [
	0.7388888888888889,
	0.84,
	0.23333333333333334
	],
	"differential_calc": [
	0.2681818181818182,
	0.29333333333333333,
	0.21428571428571427
	],
	"integral_calc": [
	0.20673076923076922,
	0.21333333333333335,
	0.1896551724137931
	],
	"multivariable_calculus": [
	0.3651685393258427,
	0.4066666666666667,
	0.14285714285714285
	],
	"precalculus_review": [
	0.64375,
	0.6733333333333333,
	0.2
	],
	"sequences_series": [
	0.42207792207792205,
	0.43333333333333335,
	0.0
	]
	},
	{
	"model_name": "meta-llama/Llama-3.3-70B-Instruct",
	"judge_model_name": "gpt-4o-2024-08-06",
	"u_math": [
	44.72727272727273,
	51.66666666666667,
	13.5
	],
	"algebra": [
	0.7055555555555556,
	0.8333333333333334,
	0.06666666666666667
	],
	"differential_calc": [
	0.2772727272727273,
	0.35333333333333333,
	0.11428571428571428
	],
	"integral_calc": [
	0.2548076923076923,
	0.2733333333333333,
	0.20689655172413793
	],
	"multivariable_calculus": [
	0.42696629213483145,
	0.4866666666666667,
	0.10714285714285714
	],
	"precalculus_review": [
	0.65,
	0.6866666666666666,
	0.1
	],
	"sequences_series": [
	0.461038961038961,
	0.4666666666666667,
	0.25
	]
	},
	{
	"model_name": "meta-llama/Llama-3.2-90B-Vision-Instruct",
	"judge_model_name": "gpt-4o-2024-08-06",
	"u_math": [
	37.18181818181818,
	41.77777777777778,
	16.5
	],
	"algebra": [
	0.7222222222222222,
	0.82,
	0.23333333333333334
	],
	"differential_calc": [
	0.2318181818181818,
	0.21333333333333335,
	0.2714285714285714
	],
	"integral_calc": [
	0.09615384615384616,
	0.11333333333333333,
	0.05172413793103448
	],
	"multivariable_calculus": [
	0.2696629213483146,
	0.3,
	0.10714285714285714
	],
	"precalculus_review": [
	0.65625,
	0.7,
	0.0
	],
	"sequences_series": [
	0.35714285714285715,
	0.36,
	0.25
	]
	},
	{
	"model_name": "Qwen/Qwen2-VL-7B-Instruct",
	"judge_model_name": "gpt-4o-2024-08-06",
	"u_math": [
	26.272727272727277,
	27.111111111111114,
	22.5
	],
	"algebra": [
	0.5055555555555555,
	0.5866666666666667,
	0.1
	],
	"differential_calc": [
	0.24545454545454545,
	0.18666666666666668,
	0.37142857142857144
	],
	"integral_calc": [
	0.12980769230769232,
	0.11333333333333333,
	0.1724137931034483
	],
	"multivariable_calculus": [
	0.14606741573033707,
	0.14,
	0.17857142857142858
	],
	"precalculus_review": [
	0.40625,
	0.4266666666666667,
	0.1
	],
	"sequences_series": [
	0.16883116883116883,
	0.17333333333333334,
	0.0
	]
	},
	{
	"model_name": "Qwen/Qwen2-VL-72B-Instruct",
	"judge_model_name": "gpt-4o-2024-08-06",
	"u_math": [
	41.81818181818181,
	43.888888888888886,
	32.5
	],
	"algebra": [
	0.7111111111111111,
	0.8,
	0.26666666666666666
	],
	"differential_calc": [
	0.3409090909090909,
	0.29333333333333333,
	0.44285714285714284
	],
	"integral_calc": [
	0.23557692307692307,
	0.22,
	0.27586206896551724
	],
	"multivariable_calculus": [
	0.3146067415730337,
	0.32,
	0.2857142857142857
	],
	"precalculus_review": [
	0.625,
	0.66,
	0.1
	],
	"sequences_series": [
	0.33766233766233766,
	0.34,
	0.25
	]
	},
	{
	"model_name": "mistralai/Pixtral-12B-2409",
	"judge_model_name": "gpt-4o-2024-08-06",
	"u_math": [
	17.545454545454543,
	17.888888888888886,
	16.0
	],
	"algebra": [
	0.37222222222222223,
	0.4,
	0.23333333333333334
	],
	"differential_calc": [
	0.16818181818181818,
	0.10666666666666667,
	0.3
	],
	"integral_calc": [
	0.04326923076923077,
	0.04666666666666667,
	0.034482758620689655
	],
	"multivariable_calculus": [
	0.06741573033707865,
	0.06666666666666667,
	0.07142857142857142
	],
	"precalculus_review": [
	0.3,
	0.32,
	0.0
	],
	"sequences_series": [
	0.12987012987012986,
	0.13333333333333333,
	0.0
	]
	},
	{
	"model_name": "mistralai/Pixtral-Large-Instruct-2411",
	"judge_model_name": "gpt-4o-2024-08-06",
	"u_math": [
	47.81818181818182,
	51.44444444444445,
	31.5
	],
	"algebra": [
	0.7444444444444445,
	0.8266666666666667,
	0.3333333333333333
	],
	"differential_calc": [
	0.3090909090909091,
	0.3,
	0.32857142857142857
	],
	"integral_calc": [
	0.2692307692307692,
	0.24666666666666667,
	0.3275862068965517
	],
	"multivariable_calculus": [
	0.43820224719101125,
	0.4666666666666667,
	0.2857142857142857
	],
	"precalculus_review": [
	0.70625,
	0.7333333333333333,
	0.3
	],
	"sequences_series": [
	0.5,
	0.5133333333333333,
	0.0
	]
	},
	{
	"model_name": "microsoft/phi-4",
	"judge_model_name": "gpt-4o-2024-08-06",
	"u_math": [
	54.45454545454545,
	58.333333333333336,
	37.0
	],
	"algebra": [
	0.8166666666666667,
	0.8933333333333333,
	0.43333333333333335
	],
	"differential_calc": [
	0.42272727272727273,
	0.4266666666666667,
	0.4142857142857143
	],
	"integral_calc": [
	0.28365384615384615,
	0.25333333333333335,
	0.3620689655172414
	],
	"multivariable_calculus": [
	0.5056179775280899,
	0.5466666666666666,
	0.2857142857142857
	],
	"precalculus_review": [
	0.84375,
	0.88,
	0.3
	],
	"sequences_series": [
	0.487012987012987,
	0.5,
	0.0
	]
	},
	{
	"model_name": "LFM-7B",
	"judge_model_name": "gpt-4o-2024-08-06",
	"u_math": [
	25.818181818181817,
	28.000000000000004,
	16.0
	],
	"algebra": [
	0.5666666666666667,
	0.6666666666666666,
	0.06666666666666667
	],
	"differential_calc": [
	0.13636363636363635,
	0.08666666666666667,
	0.24285714285714285
	],
	"integral_calc": [
	0.0673076923076923,
	0.04,
	0.13793103448275862
	],
	"multivariable_calculus": [
	0.12921348314606743,
	0.13333333333333333,
	0.10714285714285714
	],
	"precalculus_review": [
	0.5625,
	0.5866666666666667,
	0.2
	],
	"sequences_series": [
	0.16233766233766234,
	0.16666666666666666,
	0.0
	]
	}
	]