Upload 3 files

Files changed (3) hide show

glm_9b_visual/config.json ADDED Viewed

+{
+  "architectures": [
+    "Glm4vVisionModel"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "depth": 24,
+  "hidden_act": "silu",
+  "hidden_dropout_prob": 0.0,
+  "hidden_size": 1536,
+  "image_size": 336,
+  "in_channels": 3,
+  "initializer_range": 0.02,
+  "intermediate_size": 13696,
+  "model_type": "glm4v",
+  "num_heads": 12,
+  "out_hidden_size": 4096,
+  "patch_size": 14,
+  "rms_norm_eps": 1e-05,
+  "spatial_merge_size": 2,
+  "temporal_patch_size": 2,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.54.0.dev0"
+}

glm_9b_visual/model.safetensors ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:b3e1189a52ab8c389a8ed82cb7d0fed8d026f6f9a7a8343746259b62146a201e
+size 1785015304

glm_9b_visual/test_vision_model.py ADDED Viewed

+import torch
+from PIL import Image
+from transformers import AutoImageProcessor
+from transformers.models.glm4v.modeling_glm4v import Glm4vVisionModel, Glm4vVisionConfig
+from safetensors.torch import load_file
+device = "cuda:0" if torch.cuda.is_available() else "cpu"
+image_path = "/home/alic-li/图片/黛玉训狗_红楼之家_饺子和布莱恩的木石前盟.jpg"
+vision_model_path = "/mnt/69043a6d-b152-4bd1-be10-e1130af6487f/glm_9b_visual/"
+image_processor = AutoImageProcessor.from_pretrained("THUDM/GLM-4.1V-9B-Thinking", trust_remote_code=True)
+config = Glm4vVisionConfig.from_pretrained(vision_model_path)
+vision_model = Glm4vVisionModel(config).to(device)
+state_dict = load_file(f"{vision_model_path}/model.safetensors")
+missing_keys, unexpected_keys = vision_model.load_state_dict(state_dict, strict=False)
+print("Missing keys:", missing_keys)
+print("Unexpected keys:", unexpected_keys)
+image = Image.open(image_path).convert("RGB")
+inputs = image_processor(images=image, return_tensors="pt").to(device)
+pixel_values = inputs["pixel_values"]
+grid_thw = inputs["image_grid_thw"]  # 这个才是正确的 patch 分布！
+with torch.no_grad():
+    outputs = vision_model(
+        hidden_states=pixel_values,
+        grid_thw=grid_thw
+    )
+print("Image embedding shape:", outputs.shape)
+print("First 5 features:", outputs[:, :5].cpu().numpy())
+print("All features:", outputs.cpu().numpy())