neural-mesh-v2 / evaluation /math_eval /compare_models.py

Restore all essential files - code, configs, and MBPP/HumanEval data

24c2665 verified 9 days ago

10.4 kB

	#!/usr/bin/env python3
	"""
	모델별 특정 문제 응답 비교 도구 (전체 응답 출력 버전)
	사용법: python compare_models.py --benchmark aime24 --problem_idx 0 --models qwen25_7b_base azr_coder_7b azr_base_7b

	주요 변경사항:
	- 문제 텍스트와 추론 과정을 전체 출력 (길이 제한 제거)
	- 더 상세한 분석을 위한 완전한 응답 확인 가능
	"""

	import json
	import argparse
	import os
	import glob
	import sys
	from typing import List, Dict, Any
	import re

	def extract_answer_from_response(response: str) -> str:
	"""응답에서 최종 답안 추출"""
	# \boxed{...} 패턴 찾기
	boxed_pattern = r'\\boxed\{([^}]+)\}'
	matches = re.findall(boxed_pattern, response)
	if matches:
	return matches[-1] # 마지막 boxed 답안 사용

	# 숫자 패턴 찾기 (fallback)
	number_pattern = r'\b\d+(?:\.\d+)?\b'
	numbers = re.findall(number_pattern, response)
	if numbers:
	return numbers[-1]

	return "답안을 찾을 수 없음"

	def load_problem_result(model_dir: str, benchmark: str, problem_idx: int) -> Dict[str, Any]:
	"""특정 모델의 특정 문제 결과 로드"""
	# 결과 파일 찾기
	result_files = glob.glob(f"{model_dir}/{benchmark}/*.jsonl")

	if not result_files:
	return {"error": f"벤치마크 '{benchmark}' 결과 파일을 찾을 수 없음"}

	result_file = result_files[0] # 첫 번째 파일 사용

	try:
	with open(result_file, 'r', encoding='utf-8') as f:
	lines = f.readlines()

	if problem_idx >= len(lines):
	return {"error": f"문제 인덱스 {problem_idx}가 범위를 벗어남 (총 {len(lines)}개 문제)"}

	problem_data = json.loads(lines[problem_idx])
	return problem_data

	except Exception as e:
	return {"error": f"파일 읽기 오류: {str(e)}"}

	def format_response_text(text: str, max_length: int = None) -> str:
	"""응답 텍스트 포맷팅"""
	if max_length is not None and len(text) > max_length:
	return text[:max_length] + "... (truncated)"
	return text

	def compare_models_on_problem(
	benchmark: str,
	problem_idx: int,
	model_dirs: List[str],
	results_base_dir: str = "/home/ubuntu/RLVR/Absolute-Zero-Reasoner/evaluation/math_eval/EVAL/results"
	):
	"""특정 문제에 대한 모델별 비교"""

	print("=" * 100)
	print(f"📊 벤치마크: {benchmark.upper()}")
	print(f"🔢 문제 번호: {problem_idx}")
	print("=" * 100)

	# 각 모델의 결과 로드
	model_results = {}
	problem_text = None
	correct_answer = None

	for model_name in model_dirs:
	model_path = os.path.join(results_base_dir, model_name)
	result = load_problem_result(model_path, benchmark, problem_idx)
	model_results[model_name] = result

	# 문제 텍스트와 정답은 첫 번째 성공한 모델에서 가져오기
	if problem_text is None and "error" not in result:
	problem_text = result.get("question", "문제를 찾을 수 없음")
	correct_answer = result.get("gt", result.get("answer", "정답을 찾을 수 없음"))

	# 문제 정보 출력
	print(f"📝 문제:")
	print("-" * 80)
	print(format_response_text(problem_text))
	print()
	print(f"✅ 정답: {correct_answer}")
	print()

	# 모델 출력 순서 정의 (선호하는 순서)
	preferred_order = [
	"qwen25_7b_base",
	"azr_base_7b",
	"qwen25_7b_coder",
	"azr_coder_7b"
	]

	# 입력된 모델들을 선호 순서대로 정렬
	ordered_models = []
	# 먼저 선호 순서에 있는 모델들을 순서대로 추가
	for preferred_model in preferred_order:
	if preferred_model in model_dirs:
	ordered_models.append(preferred_model)

	# 선호 순서에 없는 모델들을 나머지에 추가
	for model in model_dirs:
	if model not in ordered_models:
	ordered_models.append(model)

	# 모델별 결과 비교
	print("🤖 모델별 응답 비교:")
	print("=" * 100)

	for model_name in ordered_models:
	result = model_results[model_name]
	print(f"\n🔸 {model_name.upper()}")
	print("-" * 60)

	if "error" in result:
	print(f"❌ 오류: {result['error']}")
	continue

	# 모델 예측과 정답 여부
	model_pred = result.get("pred", [""])[0] if result.get("pred") else ""
	is_correct = result.get("score", [False])[0] if result.get("score") else False

	# 전체 응답에서 답안 추출
	full_response = result.get("code", [""])[0] if result.get("code") else ""
	extracted_answer = extract_answer_from_response(full_response)

	# 결과 출력
	status = "✅ 정답" if is_correct else "❌ 오답"
	print(f"결과: {status}")
	print(f"모델 답안: {model_pred}")
	print(f"추출된 답안: {extracted_answer}")
	print()

	# 추론 과정 (전체)
	if full_response:
	print("🧠 추론 과정 (전체):")
	print(format_response_text(full_response))
	else:
	print("추론 과정을 찾을 수 없음")

	print("-" * 60)

	# 요약 통계
	print(f"\n📈 요약:")
	print("-" * 40)
	correct_models = []
	wrong_models = []
	error_models = []

	for model_name in ordered_models:
	result = model_results[model_name]
	if "error" in result:
	error_models.append(model_name)
	elif result.get("score", [False])[0]:
	correct_models.append(model_name)
	else:
	wrong_models.append(model_name)

	if correct_models:
	print(f"✅ 정답 모델: {', '.join(correct_models)}")
	if wrong_models:
	print(f"❌ 오답 모델: {', '.join(wrong_models)}")
	if error_models:
	print(f"⚠️ 오류 모델: {', '.join(error_models)}")

	print(f"정답률: {len(correct_models)}/{len(model_dirs) - len(error_models)} ({len(correct_models)/(len(model_dirs) - len(error_models))*100:.1f}%)")

	def list_available_benchmarks(results_base_dir: str, model_name: str) -> List[str]:
	"""사용 가능한 벤치마크 목록 반환"""
	model_path = os.path.join(results_base_dir, model_name)
	if not os.path.exists(model_path):
	return []

	benchmarks = []
	for item in os.listdir(model_path):
	item_path = os.path.join(model_path, item)
	if os.path.isdir(item_path):
	benchmarks.append(item)

	return sorted(benchmarks)

	def get_problem_count(results_base_dir: str, model_name: str, benchmark: str) -> int:
	"""특정 벤치마크의 문제 수 반환"""
	result_files = glob.glob(f"{results_base_dir}/{model_name}/{benchmark}/*.jsonl")
	if not result_files:
	return 0

	try:
	with open(result_files[0], 'r', encoding='utf-8') as f:
	return len(f.readlines())
	except:
	return 0

	def main():
	parser = argparse.ArgumentParser(description="모델별 특정 문제 응답 비교")
	parser.add_argument("--benchmark", "-b", type=str, required=True,
	help="벤치마크 이름 (예: aime24, aime25, amc23, math500)")
	parser.add_argument("--problem_idx", "-p", type=int, required=True,
	help="문제 인덱스 (0부터 시작)")
	parser.add_argument("--models", "-m", nargs="+", required=True,
	help="비교할 모델 디렉토리 이름들")
	parser.add_argument("--results_dir", "-r", type=str,
	default="/home/ubuntu/RLVR/Absolute-Zero-Reasoner/evaluation/math_eval/EVAL/results",
	help="결과 디렉토리 경로")
	parser.add_argument("--list", "-l", action="store_true",
	help="사용 가능한 벤치마크와 문제 수 나열")
	parser.add_argument("--full", "-f", action="store_true",
	help="전체 응답 출력 (기본값: True, 이제 항상 전체 출력)")
	parser.add_argument("--output", "-o", type=str,
	help="결과를 파일로 저장 (예: --output result.txt)")

	args = parser.parse_args()

	if args.list:
	print("📋 사용 가능한 정보:")
	print("-" * 50)

	# 첫 번째 모델 기준으로 벤치마크 나열
	if args.models:
	benchmarks = list_available_benchmarks(args.results_dir, args.models[0])
	for benchmark in benchmarks:
	problem_count = get_problem_count(args.results_dir, args.models[0], benchmark)
	print(f"• {benchmark}: {problem_count}개 문제 (인덱스 0-{problem_count-1})")
	return

	# 출력 파일 설정
	output_file = None
	if args.output:
	try:
	output_file = open(args.output, 'w', encoding='utf-8')
	# 표준 출력을 파일로 리디렉션
	original_stdout = sys.stdout
	sys.stdout = output_file
	print(f"결과를 {args.output} 파일에 저장합니다...")
	# 파일에 저장될 내용에서는 이 메시지를 제거하기 위해 다시 원래 stdout으로 출력
	sys.stdout = original_stdout
	print(f"📁 결과를 {args.output} 파일에 저장합니다...")
	sys.stdout = output_file
	except Exception as e:
	print(f"❌ 파일 생성 오류: {e}")
	return

	try:
	# 모델 비교 실행
	compare_models_on_problem(
	benchmark=args.benchmark,
	problem_idx=args.problem_idx,
	model_dirs=args.models,
	results_base_dir=args.results_dir
	)
	finally:
	# 파일 출력인 경우 원래 stdout 복원 및 파일 닫기
	if output_file:
	sys.stdout = original_stdout
	output_file.close()
	print(f"✅ 결과가 {args.output} 파일에 저장되었습니다.")
	print(f"📖 파일 내용 확인: cat {args.output}")
	print(f"📄 파일 열기: less {args.output}")
	print(f"🔍 특정 모델 검색: grep -A 10 'QWEN25_7B_BASE' {args.output}")

	if __name__ == "__main__":
	main()