neural-mesh-v2 / Update /Phase1_Infrastructure_Setup.md
hjkim00's picture
Restore all essential files - code, configs, and MBPP/HumanEval data
24c2665 verified

Phase 1: 기반 인프라 ꡬ좕 μ™„λ£Œ

πŸ“ 디렉토리 ꡬ쑰 μ„€μ •

μƒˆλ‘œ μƒμ„±λœ ν”„λ‘œμ νŠΈ

  • /home/ubuntu/RLVR/TestTime-RLVR-v2/ - AZR 기반 μƒˆ ν”„λ‘œμ νŠΈ

핡심 디렉토리 ꡬ쑰

TestTime-RLVR-v2/
β”œβ”€β”€ absolute_zero_reasoner/
β”‚   β”œβ”€β”€ testtime/                    # TestTime μ „μš© μ»΄ν¬λ„ŒνŠΈ
β”‚   β”‚   β”œβ”€β”€ __init__.py             # λͺ¨λ“ˆ μ΄ˆκΈ°ν™”
β”‚   β”‚   └── config.py               # TestTime μ„€μ •
β”‚   β”œβ”€β”€ utils/code_utils/           # AZR Python Executor (κΈ°μ‘΄)
β”‚   β”œβ”€β”€ rewards/                    # AZR Reward Manager (κΈ°μ‘΄)
β”‚   └── trainer/ppo/                # AZR PPO Trainer (κΈ°μ‘΄)
β”œβ”€β”€ logs/                           # λ‘œκΉ… μ‹œμŠ€ν…œ
β”‚   β”œβ”€β”€ problems/                   # λ¬Έμ œλ³„ 둜그
β”‚   β”œβ”€β”€ ipo_extraction/            # IPO μΆ”μΆœ 둜그
β”‚   β”œβ”€β”€ task_generation/           # νƒœμŠ€ν¬ 생성 둜그  
β”‚   β”œβ”€β”€ training/                  # ν•™μŠ΅ 둜그
β”‚   └── performance/               # μ„±λŠ₯ λ³€ν™” 둜그
β”œβ”€β”€ evaluation/code_eval/data/      # 벀치마크 데이터
β”‚   β”œβ”€β”€ HumanEvalPlus.jsonl        # βœ… 쑴재 확인
β”‚   └── MbppPlus.jsonl             # βœ… 쑴재 확인
└── Update/                        # 변경사항 좔적

πŸ”§ μƒμ„±λœ 핡심 μ»΄ν¬λ„ŒνŠΈ

1. TestTimeConfig 클래슀

  • μœ„μΉ˜: absolute_zero_reasoner/testtime/config.py
  • κΈ°λŠ₯: TestTime RLVR 전체 μ„€μ • 관리
  • νŠΉμ§•: AZR ν˜Έν™˜μ„± μœ μ§€ν•˜λ©΄μ„œ TestTime νŠΉν™” μ„€μ • μΆ”κ°€

2. BenchmarkConfig 클래슀

  • μœ„μΉ˜: absolute_zero_reasoner/testtime/config.py
  • κΈ°λŠ₯: λ²€μΉ˜λ§ˆν¬λ³„ μ„€μ • (HumanEval+, MBPP+)
  • νŠΉμ§•: λ²€μΉ˜λ§ˆν¬λ³„ μ‹œμž‘ 인덱슀, 경둜 λ“± 관리

βœ… μ™„λ£Œλœ μž‘μ—…

  1. ν”„λ‘œμ νŠΈ 볡사: AZR β†’ TestTime-RLVR-v2
  2. 디렉토리 ꡬ쑰: 둜그 및 μ»΄ν¬λ„ŒνŠΈ 디렉토리 생성
  3. κΈ°λ³Έ μ„€μ •: TestTimeConfig, BenchmarkConfig 클래슀 생성
  4. 데이터 확인: HumanEval+, MBPP+ 데이터 파일 쑴재 확인
  5. λͺ¨λ“ˆ ꡬ쑰: testtime νŒ¨ν‚€μ§€ μ΄ˆκΈ°ν™”

🎯 λ‹€μŒ 단계 (Phase 2)

  1. BenchmarkProblemLoader κ΅¬ν˜„ - 벀치마크 문제 λ‘œλ”©
  2. InitialSolutionGenerator κ΅¬ν˜„ - 초기 μ†”λ£¨μ…˜ 생성
  3. 벀치마크 검증 μ‹œμŠ€ν…œ κ΅¬ν˜„ - μ†”λ£¨μ…˜ μ •ν™•μ„± 검증

πŸ“ μ£Όμš” 섀계 원칙

  • AZR ν˜Έν™˜μ„±: κΈ°μ‘΄ AZR μ»΄ν¬λ„ŒνŠΈ μ΅œλŒ€ν•œ μž¬μ‚¬μš©
  • κ²½λŸ‰ν™”: TestTime에 μ ν•©ν•œ λΉ λ₯Έ 적응 ν•™μŠ΅
  • 포괄적 λ‘œκΉ…: λͺ¨λ“  단계별 상세 둜그 기둝
  • λͺ¨λ“ˆμ„±: 각 μ»΄ν¬λ„ŒνŠΈ 독립적 ν…ŒμŠ€νŠΈ κ°€λŠ₯

생성 μΌμ‹œ: 2025-07-16
μƒνƒœ: βœ… μ™„λ£Œ