Spaces:

uw-insight-lab
/

Probing-Vis-Literacy-of-VLMs

Paused

App Files Files Community

AustingDong commited on Mar 5

Commit

6a0d13c

1 Parent(s): 035a152

modified font, corrected model name

Browse files

Files changed (3) hide show

app.py +1 -1
demo/cam.py +7 -6
demo/model_utils.py +2 -2

app.py CHANGED Viewed

@@ -286,7 +286,7 @@ with gr.Blocks() as demo:
             saliency_map_output = gr.Gallery(label="Saliency Map", height=300, columns=1)
         with gr.Column():
-            model_selector = gr.Dropdown(choices=["Clip", "ChartGemma-2B", "Janus-1B", "Janus-7B", "LLaVA-1.5-7B"], value="Clip", label="model")
             response_type = gr.Dropdown(choices=["Visualization only"], value="Visualization only", label="response_type")
             focus = gr.Dropdown(choices=["Visual Encoder"], value="Visual Encoder", label="focus")
             saliency_map_method = gr.Dropdown(choices=["GradCAM"], value="GradCAM", label="saliency map type")

             saliency_map_output = gr.Gallery(label="Saliency Map", height=300, columns=1)
         with gr.Column():
+            model_selector = gr.Dropdown(choices=["Clip", "ChartGemma-2B", "Janus-1B", "Janus-7B", "LLaVA-v1.6-Mistral-7B"], value="Clip", label="model")
             response_type = gr.Dropdown(choices=["Visualization only"], value="Visualization only", label="response_type")
             focus = gr.Dropdown(choices=["Visual Encoder"], value="Visual Encoder", label="focus")
             saliency_map_method = gr.Dropdown(choices=["GradCAM"], value="GradCAM", label="saliency map type")

demo/cam.py CHANGED Viewed

@@ -11,12 +11,13 @@ from demo.modify_llama import *
 class AttentionGuidedCAM:
-    def __init__(self, model):
         self.model = model
         self.gradients = []
         self.activations = []
         self.hooks = []
-        self._register_hooks()
     def _register_hooks(self):
         """ Registers hooks to extract activations and gradients from ALL attention layers. """
@@ -309,7 +310,7 @@ class AttentionGuidedCAMJanus(AttentionGuidedCAM):
 class AttentionGuidedCAMLLaVA(AttentionGuidedCAM):
     def __init__(self, model, target_layers):
         self.target_layers = target_layers
-        super().__init__(model)
         self._modify_layers()
         self._register_hooks_activations()
@@ -439,7 +440,7 @@ class AttentionGuidedCAMLLaVA(AttentionGuidedCAM):
 class AttentionGuidedCAMChartGemma(AttentionGuidedCAM):
     def __init__(self, model, target_layers):
         self.target_layers = target_layers
-        super().__init__(model)
         self._modify_layers()
         self._register_hooks_activations()
@@ -473,7 +474,7 @@ class AttentionGuidedCAMChartGemma(AttentionGuidedCAM):
         outputs_raw = self.model(**inputs)
         self.model.zero_grad()
-        print(outputs_raw)
         # loss = self.target_layers[-1].attention_map.sum()
         loss = outputs_raw.logits.max(dim=-1).values.sum()
         loss.backward()
@@ -616,7 +617,7 @@ def generate_gradcam(
     Returns:
       PIL.Image: The image overlaid with the Grad-CAM heatmap.
     """
-    print("Generating Grad-CAM with shape:", cam.shape)
     if normalize:
         cam_min, cam_max = cam.min(), cam.max()

 class AttentionGuidedCAM:
+    def __init__(self, model, register=True):
         self.model = model
         self.gradients = []
         self.activations = []
         self.hooks = []
+        if register:
+            self._register_hooks()
     def _register_hooks(self):
         """ Registers hooks to extract activations and gradients from ALL attention layers. """
 class AttentionGuidedCAMLLaVA(AttentionGuidedCAM):
     def __init__(self, model, target_layers):
         self.target_layers = target_layers
+        super().__init__(model, register=False)
         self._modify_layers()
         self._register_hooks_activations()
 class AttentionGuidedCAMChartGemma(AttentionGuidedCAM):
     def __init__(self, model, target_layers):
         self.target_layers = target_layers
+        super().__init__(model, register=False)
         self._modify_layers()
         self._register_hooks_activations()
         outputs_raw = self.model(**inputs)
         self.model.zero_grad()
+        # print(outputs_raw)
         # loss = self.target_layers[-1].attention_map.sum()
         loss = outputs_raw.logits.max(dim=-1).values.sum()
         loss.backward()
     Returns:
       PIL.Image: The image overlaid with the Grad-CAM heatmap.
     """
+    # print("Generating Grad-CAM with shape:", cam.shape)
     if normalize:
         cam_min, cam_max = cam.min(), cam.max()

demo/model_utils.py CHANGED Viewed

@@ -45,7 +45,7 @@ class Clip_Utils(Model_Utils):
     @spaces.GPU(duration=120)
     def prepare_inputs(self, question_lst, image):
         image = Image.fromarray(image)
-        print("image_size: ", image.size)
         inputs = self.processor(text=question_lst, images=image, return_tensors="pt", padding=True)
         return inputs
@@ -228,7 +228,7 @@ class ChartGemma_Utils(Model_Utils):
-def add_title_to_image(image, title, font_size=20):
     """Adds a title above an image using PIL and textbbox()."""
     img_width, img_height = image.size

     @spaces.GPU(duration=120)
     def prepare_inputs(self, question_lst, image):
         image = Image.fromarray(image)
+        # print("image_size: ", image.size)
         inputs = self.processor(text=question_lst, images=image, return_tensors="pt", padding=True)
         return inputs
+def add_title_to_image(image, title, font_size=50):
     """Adds a title above an image using PIL and textbbox()."""
     img_width, img_height = image.size