openbmb
/

MiniCPM-V-4_5

@@ -203,6 +203,30 @@ class MiniCPMV(MiniCPMVPreTrainedModel):
     def forward(self, data, **kwargs):
         vllm_embedding, vision_hidden_states = self.get_vllm_embedding(data)
         position_ids = data["position_ids"]

     def forward(self, data, **kwargs):
+        if isinstance(data, torch.Tensor):
+            attention_mask = torch.ones_like(data, dtype=torch.bool)
+            kwargs = {'attention_mask': attention_mask}
+            return self.llm(
+                input_ids=data,
+                **kwargs
+            )
+        if data is None:
+            data = {
+                "input_ids": kwargs.pop("input_ids", None),
+                "pixel_values": kwargs.pop("pixel_values", None),
+                "image_bound": kwargs.pop("image_bound", None),
+                "tgt_sizes": kwargs.pop("tgt_sizes", None),
+                "position_ids": kwargs.pop("position_ids", None),
+            }
+        else:
+            kwargs.pop("input_ids", None)
+            kwargs.pop("pixel_values", None)
+            kwargs.pop("image_bound", None)
+            kwargs.pop("tgt_sizes", None)
+            kwargs.pop("position_ids", None)
+        kwargs.pop("inputs_embeds", None)
         vllm_embedding, vision_hidden_states = self.get_vllm_embedding(data)
         position_ids = data["position_ids"]