neural-mesh-v2 / Update /Phase1_Infrastructure_Setup.md
hjkim00's picture
Restore all essential files - code, configs, and MBPP/HumanEval data
24c2665 verified
# Phase 1: 기반 인프라 ꡬ좕 μ™„λ£Œ
## πŸ“ 디렉토리 ꡬ쑰 μ„€μ •
### μƒˆλ‘œ μƒμ„±λœ ν”„λ‘œμ νŠΈ
- `/home/ubuntu/RLVR/TestTime-RLVR-v2/` - AZR 기반 μƒˆ ν”„λ‘œμ νŠΈ
### 핡심 디렉토리 ꡬ쑰
```
TestTime-RLVR-v2/
β”œβ”€β”€ absolute_zero_reasoner/
β”‚ β”œβ”€β”€ testtime/ # TestTime μ „μš© μ»΄ν¬λ„ŒνŠΈ
β”‚ β”‚ β”œβ”€β”€ __init__.py # λͺ¨λ“ˆ μ΄ˆκΈ°ν™”
β”‚ β”‚ └── config.py # TestTime μ„€μ •
β”‚ β”œβ”€β”€ utils/code_utils/ # AZR Python Executor (κΈ°μ‘΄)
β”‚ β”œβ”€β”€ rewards/ # AZR Reward Manager (κΈ°μ‘΄)
β”‚ └── trainer/ppo/ # AZR PPO Trainer (κΈ°μ‘΄)
β”œβ”€β”€ logs/ # λ‘œκΉ… μ‹œμŠ€ν…œ
β”‚ β”œβ”€β”€ problems/ # λ¬Έμ œλ³„ 둜그
β”‚ β”œβ”€β”€ ipo_extraction/ # IPO μΆ”μΆœ 둜그
β”‚ β”œβ”€β”€ task_generation/ # νƒœμŠ€ν¬ 생성 둜그
β”‚ β”œβ”€β”€ training/ # ν•™μŠ΅ 둜그
β”‚ └── performance/ # μ„±λŠ₯ λ³€ν™” 둜그
β”œβ”€β”€ evaluation/code_eval/data/ # 벀치마크 데이터
β”‚ β”œβ”€β”€ HumanEvalPlus.jsonl # βœ… 쑴재 확인
β”‚ └── MbppPlus.jsonl # βœ… 쑴재 확인
└── Update/ # 변경사항 좔적
```
## πŸ”§ μƒμ„±λœ 핡심 μ»΄ν¬λ„ŒνŠΈ
### 1. TestTimeConfig 클래슀
- **μœ„μΉ˜**: `absolute_zero_reasoner/testtime/config.py`
- **κΈ°λŠ₯**: TestTime RLVR 전체 μ„€μ • 관리
- **νŠΉμ§•**: AZR ν˜Έν™˜μ„± μœ μ§€ν•˜λ©΄μ„œ TestTime νŠΉν™” μ„€μ • μΆ”κ°€
### 2. BenchmarkConfig 클래슀
- **μœ„μΉ˜**: `absolute_zero_reasoner/testtime/config.py`
- **κΈ°λŠ₯**: λ²€μΉ˜λ§ˆν¬λ³„ μ„€μ • (HumanEval+, MBPP+)
- **νŠΉμ§•**: λ²€μΉ˜λ§ˆν¬λ³„ μ‹œμž‘ 인덱슀, 경둜 λ“± 관리
## βœ… μ™„λ£Œλœ μž‘μ—…
1. **ν”„λ‘œμ νŠΈ 볡사**: AZR β†’ TestTime-RLVR-v2
2. **디렉토리 ꡬ쑰**: 둜그 및 μ»΄ν¬λ„ŒνŠΈ 디렉토리 생성
3. **κΈ°λ³Έ μ„€μ •**: TestTimeConfig, BenchmarkConfig 클래슀 생성
4. **데이터 확인**: HumanEval+, MBPP+ 데이터 파일 쑴재 확인
5. **λͺ¨λ“ˆ ꡬ쑰**: testtime νŒ¨ν‚€μ§€ μ΄ˆκΈ°ν™”
## 🎯 λ‹€μŒ 단계 (Phase 2)
1. **BenchmarkProblemLoader** κ΅¬ν˜„ - 벀치마크 문제 λ‘œλ”©
2. **InitialSolutionGenerator** κ΅¬ν˜„ - 초기 μ†”λ£¨μ…˜ 생성
3. **벀치마크 검증 μ‹œμŠ€ν…œ** κ΅¬ν˜„ - μ†”λ£¨μ…˜ μ •ν™•μ„± 검증
## πŸ“ μ£Όμš” 섀계 원칙
- **AZR ν˜Έν™˜μ„±**: κΈ°μ‘΄ AZR μ»΄ν¬λ„ŒνŠΈ μ΅œλŒ€ν•œ μž¬μ‚¬μš©
- **κ²½λŸ‰ν™”**: TestTime에 μ ν•©ν•œ λΉ λ₯Έ 적응 ν•™μŠ΅
- **포괄적 λ‘œκΉ…**: λͺ¨λ“  단계별 상세 둜그 기둝
- **λͺ¨λ“ˆμ„±**: 각 μ»΄ν¬λ„ŒνŠΈ 독립적 ν…ŒμŠ€νŠΈ κ°€λŠ₯
---
**생성 μΌμ‹œ**: 2025-07-16
**μƒνƒœ**: βœ… μ™„λ£Œ