Vision-Matters-7B / README.md

Yuting6

Create README.md

138210d verified 3 months ago

preview code

raw

history blame contribute delete

1.33 kB

metadata

license: mit
datasets:
  - Yuting6/geoqa-r1v-augmentation
  - Yuting6/math-8k-augmentation
  - Yuting6/m3cot-augmentation
  - Yuting6/TQA-augmentation
  - Yuting6/Geo3k-augmentation
  - Yuting6/geoqa-r1v-noise
  - Yuting6/geoqa-r1v-crop
  - Yuting6/geoqa-r1v-blur
  - Yuting6/geoqa-r1v-8k-rotated
  - Yuting6/geoqa-r1v-8k-mixup
base_model:
  - Qwen/Qwen2.5-VL-7B-Instruct

Vision Matters: Simple Visual Perturbations Can Boost Multimodal Math Reasoning

Paper Title and Link

The model was presented in the paper Vision Matters: Simple Visual Perturbations Can Boost Multimodal Math Reasoning. You can also find the paper on arXiv: Vision Matters: Simple Visual Perturbations Can Boost Multimodal Math Reasoning (arXiv:2506.09736)

Paper Abstract

Vision-Matters is a simple visual perturbation framework that can be easily integrated into existing post-training pipelines including SFT, DPO, and GRPO. Our findings highlight the critical role of visual perturbation: better reasoning begins with better seeing.

🐙 GitHub Repo: YutingLi0606/Vision-Matters
💾 Dataset: Yuting6/vision-matters on Hugging Face