File size: 1,381 Bytes
24c2665
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
#!/bin/bash

cd /home/ubuntu/RLVR/Absolute-Zero-Reasoner/evaluation/math_eval

# Base model (Qwen2.5-7B) ํ‰๊ฐ€
echo "=== Evaluating Base Model: Qwen2.5-7B ==="
bash eval_math_nodes.sh \
    --run_name qwen25_7b_base \
    --init_model "Qwen/Qwen2.5-7B" \
    --template qwen25 \
    --tp_size 1 \
    --temperature 0 \
    --top_p 0.95 \
    --max_tokens 16000 \
    --benchmarks aime24,aime25,amc23,math500,olympiadbench,minerva_math \
    --n_sampling 1 \
    --just_wandb false \
    --seed 42

# AZR Coder 7B ํ‰๊ฐ€
echo "=== Evaluating AZR Coder 7B ==="
bash eval_math_nodes.sh \
    --run_name azr_coder_7b_hf \
    --init_model "andrewzh/Absolute_Zero_Reasoner-Coder-7b" \
    --template azr \
    --tp_size 1 \
    --temperature 0 \
    --top_p 0.95 \
    --max_tokens 16000 \
    --benchmarks aime24,aime25,amc23,math500,olympiadbench,minerva_math \
    --n_sampling 1 \
    --just_wandb false \
    --seed 42

# AZR Base 7B ํ‰๊ฐ€
echo "=== Evaluating AZR Base 7B ==="
bash eval_math_nodes.sh \
    --run_name azr_base_7b_hf \
    --init_model "andrewzh2/Absolute_Zero_Reasoner-Base-7b" \
    --template azr \
    --tp_size 1 \
    --temperature 0 \
    --top_p 0.95 \
    --max_tokens 16000 \
    --benchmarks aime24,aime25,amc23,math500,olympiadbench,minerva_math \
    --n_sampling 1 \
    --just_wandb false \
    --seed 42

echo "=== All evaluations completed! ==="