neural-mesh-v2 / evaluation /run_complete_evaluation.sh

Restore all essential files - code, configs, and MBPP/HumanEval data

24c2665 verified 10 days ago

11.9 kB

	#!/bin/bash

	# 완전한 AZR vs Base 모델 성능 비교 스크립트
	# 수학 벤치마크와 코딩 벤치마크 모두 실행

	# 사용법 출력 함수
	print_usage() {
	echo "사용법: $0 [옵션]"
	echo "옵션:"
	echo " --math-only 수학 벤치마크만 실행"
	echo " --coding-only 코딩 벤치마크만 실행"
	echo " --help, -h 도움말 출력"
	echo ""
	echo "기본값: 수학 + 코딩 벤치마크 모두 실행"
	}

	# 명령줄 인자 파싱
	RUN_MATH=true
	RUN_CODING=true

	while [[ $# -gt 0 ]]; do
	case $1 in
	--math-only)
	RUN_MATH=true
	RUN_CODING=false
	shift
	;;
	--coding-only)
	RUN_MATH=false
	RUN_CODING=true
	shift
	;;
	--help\|-h)
	print_usage
	exit 0
	;;
	*)
	echo "알 수 없는 옵션: $1"
	print_usage
	exit 1
	;;
	esac
	done

	# GPU 설정 - 이 변수만 변경하면 모든 GPU 설정이 바뀝니다
	GPU_ID=5
	export CUDA_VISIBLE_DEVICES=$GPU_ID
	echo "🎯 GPU 설정: GPU ${GPU_ID}번 사용 (CUDA_VISIBLE_DEVICES=${GPU_ID})"

	# EvalPlus 데이터셋 경로 설정
	export HUMANEVAL_OVERRIDE_PATH=/home/ubuntu/RLVR/Absolute-Zero-Reasoner/evaluation/code_eval/data/HumanEvalPlus.jsonl
	export MBPP_OVERRIDE_PATH=/home/ubuntu/RLVR/Absolute-Zero-Reasoner/evaluation/code_eval/data/MbppPlus.jsonl

	echo "🚀 Complete AZR vs Base Model Performance Comparison"
	echo "======================================================"
	echo "📋 실행 모드:"
	if [ "$RUN_MATH" = true ] && [ "$RUN_CODING" = true ]; then
	echo " - 수학 + 코딩 벤치마크 모두 실행"
	elif [ "$RUN_MATH" = true ]; then
	echo " - 수학 벤치마크만 실행"
	elif [ "$RUN_CODING" = true ]; then
	echo " - 코딩 벤치마크만 실행"
	fi

	# 현재 시간 기록
	START_TIME=$(date +%s)
	TIMESTAMP=$(date +"%Y%m%d_%H%M%S")

	echo "⏰ 시작 시간: $(date)"
	echo "📍 작업 디렉토리: $(pwd)"

	# GPU 정보 확인
	echo "🔍 사용할 GPU 정보:"
	if command -v nvidia-smi &> /dev/null; then
	nvidia-smi --id=$GPU_ID --query-gpu=name,memory.total,memory.free,utilization.gpu --format=csv,noheader,nounits 2>/dev/null \|\| echo " GPU ${GPU_ID} 정보를 가져올 수 없습니다"
	else
	echo " nvidia-smi를 사용할 수 없습니다"
	fi

	# 로그 디렉토리 생성 (절대 경로)
	LOG_DIR="/home/ubuntu/RLVR/Absolute-Zero-Reasoner/evaluation/evaluation_logs_$TIMESTAMP"
	mkdir -p $LOG_DIR

	echo "📝 로그 디렉토리: $LOG_DIR"

	# GPU 메모리 확인 및 경고
	echo ""
	echo "⚠️ GPU 메모리 사용량 확인:"
	if command -v nvidia-smi &> /dev/null; then
	GPU_MEMORY_USED=$(nvidia-smi --id=$GPU_ID --query-gpu=memory.used --format=csv,noheader,nounits 2>/dev/null \|\| echo "0")
	GPU_MEMORY_TOTAL=$(nvidia-smi --id=$GPU_ID --query-gpu=memory.total --format=csv,noheader,nounits 2>/dev/null \|\| echo "1")

	if [ "$GPU_MEMORY_USED" -gt 5000 ]; then
	echo " ⚠️ GPU ${GPU_ID}번에 이미 ${GPU_MEMORY_USED}MB 사용 중입니다."
	echo " 다른 프로세스가 실행 중일 수 있습니다."
	echo " 계속 진행하시겠습니까? (y/n)"
	read -r continue_eval
	if [[ ! "$continue_eval" =~ ^[Yy]$ ]]; then
	echo " 평가를 중단합니다."
	exit 1
	fi
	else
	echo " ✅ GPU ${GPU_ID}번 사용 가능 (${GPU_MEMORY_USED}MB/${GPU_MEMORY_TOTAL}MB 사용 중)"
	fi
	else
	echo " GPU 상태를 확인할 수 없습니다. 계속 진행합니다."
	fi

	# 1. 수학 벤치마크 평가
	if [ "$RUN_MATH" = true ]; then
	echo ""
	echo "==============================================="
	echo "📊 수학 벤치마크 평가 시작 (GPU ${GPU_ID}번 사용)"
	echo "==============================================="

	cd /home/ubuntu/RLVR/Absolute-Zero-Reasoner/evaluation/math_eval

	# ==========================================
	# 모델 설정 (새 모델 추가 시 이 부분만 수정)
	# ==========================================
	# MATH_MODELS=(
	# "andrewzh/Absolute_Zero_Reasoner-Coder-7b"
	# "andrewzh2/Absolute_Zero_Reasoner-Base-7b"
	# "Qwen/Qwen2.5-Coder-7B"
	# "Qwen/Qwen2.5-7B"
	# )

	# MATH_MODEL_NAMES=(
	# "azr_coder_7b"
	# "azr_base_7b"
	# "qwen25_7b_coder"
	# "qwen25_7b"
	# )

	# MATH_TEMPLATES=(
	# "azr"
	# "azr"
	# "qwen25-math-cot"
	# "qwen25-math-cot"
	# )

	MATH_MODELS=(
	"andrewzh/Absolute_Zero_Reasoner-Coder-7b"
	"andrewzh2/Absolute_Zero_Reasoner-Base-7b"
	"Qwen/Qwen2.5-Coder-7B"
	"Qwen/Qwen2.5-7B"
	)

	MATH_MODEL_NAMES=(
	"azr_coder_7b"
	"azr_base_7b"
	"qwen25_7b_coder"
	"qwen25_7b"
	)

	MATH_TEMPLATES=(
	"azr"
	"azr"
	"qwen25-math-cot"
	"qwen25-math-cot"
	)

	# 각 모델에 대해 개별적으로 평가 실행 (AZR 모델부터 시작)

	echo "🚀 ${#MATH_MODELS[@]}개 모델의 수학 벤치마크 평가를 시작합니다... (AZR 모델부터)"
	echo ""

	for i in "${!MATH_MODELS[@]}"; do
	MODEL="${MATH_MODELS[$i]}"
	NAME="${MATH_MODEL_NAMES[$i]}"
	TEMPLATE="${MATH_TEMPLATES[$i]}"

	echo "🔄 [$((i+1))/${#MATH_MODELS[@]}] $NAME 수학 평가 중..."
	echo " 모델: $MODEL"
	echo " 템플릿: $TEMPLATE"

	# eval 디렉토리로 이동
	cd /home/ubuntu/RLVR/Absolute-Zero-Reasoner/evaluation/math_eval/eval

	# 출력 디렉토리 생성
	OUTPUT_DIR="/home/ubuntu/RLVR/Absolute-Zero-Reasoner/evaluation/math_eval/EVAL/results/${NAME}"
	mkdir -p "$OUTPUT_DIR"

	# Python 스크립트 직접 실행
	TOKENIZERS_PARALLELISM=false python -u math_eval.py \
	--model_name_or_path "$MODEL" \
	--data_name aime24,aime25,amc23,math500,olympiadbench,minerva_math \
	--output_dir "$OUTPUT_DIR" \
	--split test \
	--prompt_type "$TEMPLATE" \
	--num_test_sample -1 \
	--max_tokens_per_call 16000 \
	--seed 42 \
	--temperature 0 \
	--n_sampling 1 \
	--top_p 0.95 \
	--start 0 \
	--end -1 \
	--use_vllm \
	--save_outputs \
	2>&1 \| tee "$LOG_DIR/${NAME}_math_evaluation.log"

	# 원래 디렉토리로 돌아가기
	cd /home/ubuntu/RLVR/Absolute-Zero-Reasoner/evaluation/math_eval

	echo "✅ $NAME 수학 평가 완료"
	echo ""
	done

	echo "🎉 모든 수학 벤치마크 평가 완료!"
	else
	echo "⏭️ 수학 벤치마크 평가 건너뛰기"
	fi

	# 2. 코딩 벤치마크 평가 (선택적 실행)
	if [ "$RUN_CODING" = true ]; then
	echo ""
	echo "==============================================="
	echo "💻 코딩 벤치마크 평가 시작 (GPU ${GPU_ID}번 사용)"
	echo "==============================================="

	cd /home/ubuntu/RLVR/Absolute-Zero-Reasoner/evaluation/code_eval

	# 각 모델에 대해 코딩 평가 실행 (위에서 설정한 모델 배열 사용)
	MODELS=("${MATH_MODELS[@]}")
	MODEL_NAMES=("${MATH_MODEL_NAMES[@]}")

	echo "🚀 자동으로 ${#MODELS[@]}개 모델의 코딩 벤치마크 평가를 시작합니다... (AZR 모델부터)"
	echo " - HumanEval+ 및 MBPP+ 평가"
	echo " - LiveCodeBench 평가"
	echo ""

	# 결과 디렉토리 생성
	mkdir -p "$LOG_DIR/coding_results"

	for i in "${!MODELS[@]}"; do
	MODEL="${MODELS[$i]}"
	NAME="${MODEL_NAMES[$i]}"

	echo "🔄 [$((i+1))/${#MODELS[@]}] $NAME 코딩 평가 중..."
	echo " 모델: $MODEL"

	# 1. HumanEval+ 평가
	echo " 📊 HumanEval+ 평가 중..."
	bash scripts/run_evalplus.sh humaneval "$MODEL" 1 0.0 0.95 1 \
	2>&1 \| tee "$LOG_DIR/coding_results/${NAME}_humaneval.log" \|\| echo "⚠️ HumanEval+ 평가 실패: $NAME"

	# 2. MBPP+ 평가
	echo " 📊 MBPP+ 평가 중..."
	bash scripts/run_evalplus.sh mbpp "$MODEL" 1 0.0 0.95 1 \
	2>&1 \| tee "$LOG_DIR/coding_results/${NAME}_mbpp.log" \|\| echo "⚠️ MBPP+ 평가 실패: $NAME"

	# 3. LiveCodeBench 평가
	echo " 📊 LiveCodeBench 평가 중..."
	cd /home/ubuntu/RLVR/Absolute-Zero-Reasoner
	bash evaluation/code_eval/scripts/run_lcb_gen.sh \
	--model "$MODEL" \
	--gpu $GPU_ID \
	--n 1 \
	--temperature 0.0 \
	--top_p 0.95 \
	--max_tokens 2048 \
	2>&1 \| tee "$LOG_DIR/coding_results/${NAME}_lcb.log" \|\| echo "⚠️ LiveCodeBench 평가 실패: $NAME"

	cd /home/ubuntu/RLVR/Absolute-Zero-Reasoner/evaluation/code_eval

	echo "✅ $NAME 코딩 평가 완료"
	echo ""
	done

	echo "🎉 모든 코딩 벤치마크 평가 완료!"
	echo "📁 결과 파일들:"
	echo " - HumanEval+: evalplus_results/humaneval/"
	echo " - MBPP+: evalplus_results/mbpp/"
	echo " - LiveCodeBench: coding/LiveCodeBench/outputs/"
	echo " - 로그: $LOG_DIR/coding_results/"
	else
	echo "⏭️ 코딩 벤치마크 평가 건너뛰기"
	fi

	# 3. 결과 수집 및 분석
	echo ""
	echo "==============================================="
	echo "📈 결과 수집 및 분석"
	echo "==============================================="

	cd /home/ubuntu/RLVR/Absolute-Zero-Reasoner/evaluation

	# 수학 평가 결과 수집
	if [ "$RUN_MATH" = true ]; then
	echo "🔍 수학 평가 결과 수집 중..."
	cd /home/ubuntu/RLVR/Absolute-Zero-Reasoner/evaluation/math_eval
	python3 collect_all_math_results.py 2>&1 \| tee $LOG_DIR/result_collection.log
	fi

	# 4. 종합 리포트 생성
	echo ""
	echo "==============================================="
	echo "📋 종합 리포트 생성"
	echo "==============================================="

	REPORT_FILE="$LOG_DIR/evaluation_summary_$TIMESTAMP.md"

	cat > $REPORT_FILE << EOF
	# AZR vs Base Models Performance Evaluation Report

	## 평가 개요
	- 평가 시작: $(date)
	- 평가 모델: 4개 (AZR 2개 + Base 2개)
	- 벤치마크: Math (6개) + Coding (선택)

	## 평가된 모델들
	1. Qwen/Qwen2.5-7B (Base Model)
	2. andrewzh/Absolute_Zero_Reasoner-Coder-7b (AZR Coder)
	3. andrewzh2/Absolute_Zero_Reasoner-Base-7b (AZR Base)
	4. Qwen/Qwen2.5-7B-Coder (Coder Base)

	## 수학 벤치마크
	- AIME 2024/2025
	- AMC 2023
	- Math500
	- OlympiadBench
	- Minerva Math

	## 평가 설정
	수학 벤치마크:
	- Temperature: 0 (greedy decoding)
	- Max tokens: 16000
	- Seed: 42
	- Benchmarks: AIME24/25, AMC23, Math500, OlympiadBench, Minerva Math

	코딩 벤치마크:
	- Temperature: 0 (greedy decoding)
	- Max tokens: 2048 (LiveCodeBench), default (EvalPlus)
	- Datasets: HumanEval+, MBPP+, LiveCodeBench v5

	## 결과 파일 위치
	수학 평가:
	- 수학 평가 로그: $LOG_DIR/math_evaluation.log
	- 결과 수집 로그: $LOG_DIR/result_collection.log
	- 상세 결과: evaluation/math_eval/eval/eval_results/

	코딩 평가:
	- HumanEval+ 결과: evaluation/code_eval/evalplus_results/humaneval/
	- MBPP+ 결과: evaluation/code_eval/evalplus_results/mbpp/
	- LiveCodeBench 결과: evaluation/code_eval/coding/LiveCodeBench/outputs/
	- 로그 파일: $LOG_DIR/coding_results/

	## 다음 단계
	1. WandB 대시보드에서 실시간 결과 확인
	2. 로컬 결과 파일에서 상세 분석 (수학 + 코딩)
	3. AZR vs Base 모델 종합 성능 비교
	4. Cross-domain 성능 향상 효과 분석

	EOF

	echo "📄 종합 리포트 생성 완료: $REPORT_FILE"

	# 실행 시간 계산
	END_TIME=$(date +%s)
	DURATION=$((END_TIME - START_TIME))
	HOURS=$((DURATION / 3600))
	MINUTES=$(((DURATION % 3600) / 60))
	SECONDS=$((DURATION % 60))

	echo ""
	echo "🎉 전체 평가 완료!"
	echo "⏱️ 총 소요 시간: ${HOURS}시간 ${MINUTES}분 ${SECONDS}초"
	echo "📁 모든 로그는 $LOG_DIR 디렉토리에 저장되었습니다."

	echo ""
	echo "📊 결과 확인 방법:"
	echo " 1. WandB: https://wandb.ai (프로젝트: verl_math_evaluate)"
	echo " 2. 로컬 파일: evaluation/math_eval/eval/eval_results/"
	echo " 3. 요약 리포트: $REPORT_FILE"