KrauthammerLab
/

RadVLM

Image-Text-to-Text

llava_onevision

Inference Endpoints

Model card Files Files and versions Community

NicoZenith commited on about 4 hours ago

Commit

8df2f16

·

verified ·

1 Parent(s): c8279a9

Update README.md

Files changed (1) hide show

README.md +1 -1

README.md CHANGED Viewed

@@ -35,7 +35,7 @@ RadVLM is a compact, multitask vision-language model designed for conversational
   - Bounding Boxes (if applicable): Coordinates indicating the location of anatomical structures or abnormalities.
 ## Model Architecture
-- Backbone: LLaVA-OneVision-7B (https://huggingface.co/llava-hf/llava-onevision-qwen2-7b-si-hf/tree/main), a vision-language model adapted for medical tasks.
 - Vision Encoder: SigLIP, used for image feature extraction.
 - Instruction Tuning: Fine-tuned with multi-task objectives, covering report generation, abnormality detection, and multi-turn Q&A.

   - Bounding Boxes (if applicable): Coordinates indicating the location of anatomical structures or abnormalities.
 ## Model Architecture
+- Backbone: LLaVA-OneVision-7B (https://huggingface.co/llava-hf/llava-onevision-qwen2-7b-si-hf), a vision-language model adapted for medical tasks.
 - Vision Encoder: SigLIP, used for image feature extraction.
 - Instruction Tuning: Fine-tuned with multi-task objectives, covering report generation, abnormality detection, and multi-turn Q&A.