allenai
/

MolmoAct-7B-D-Pretrain-0812

@@ -20,11 +20,11 @@
     ]
   },
   "architectures": [
-    "MolmoActForConditionalActionGeneration"
   ],
   "auto_map": {
     "AutoConfig": "configuration_molmoact.MolmoActConfig",
-    "AutoModelForImageTextToText": "modeling_molmoact.MolmoActForConditionalActionGeneration"
   },
   "image_patch_id": 152066,
   "initializer_range": 0.02,

     ]
   },
   "architectures": [
+    "MolmoActForActionReasoning"
   ],
   "auto_map": {
     "AutoConfig": "configuration_molmoact.MolmoActConfig",
+    "AutoModelForImageTextToText": "modeling_molmoact.MolmoActForActionReasoning"
   },
   "image_patch_id": 152066,
   "initializer_range": 0.02,

configuration_molmoact.py CHANGED Viewed

@@ -245,7 +245,7 @@ class MolmoActLlmConfig(PretrainedConfig):
 class MolmoActConfig(PretrainedConfig):
     r"""
-    This is the configuration class to store the configuration of a [`MolmoActForConditionalActionGeneration`].
     It is used to instantiate an MolmoAct model according to the specified arguments, defining the model architecture.
     Example:
@@ -266,7 +266,7 @@ class MolmoActConfig(PretrainedConfig):
     >>> configuration = MolmoActConfig(vit_config, adapter_config, llm_config, image_patch_id=152069)
     >>> # Initializing a model
-    >>> model = MolmoActForConditionalActionGeneration(configuration)
     >>> # Accessing the model configuration
     >>> configuration = model.config

 class MolmoActConfig(PretrainedConfig):
     r"""
+    This is the configuration class to store the configuration of a [`MolmoActForActionReasoning`].
     It is used to instantiate an MolmoAct model according to the specified arguments, defining the model architecture.
     Example:
     >>> configuration = MolmoActConfig(vit_config, adapter_config, llm_config, image_patch_id=152069)
     >>> # Initializing a model
+    >>> model = MolmoActForActionReasoning(configuration)
     >>> # Accessing the model configuration
     >>> configuration = model.config

modeling_molmoact.py CHANGED Viewed

@@ -1787,7 +1787,7 @@ class MolmoActModel(MolmoActPreTrainedModel):
     "The MolmoAct model which consists of a vision backbone and a language model + lm head.",
     MOLMO_START_DOCSTRING,
 )
-class MolmoActForConditionalActionGeneration(MolmoActPreTrainedModel, GenerationMixin):
     _checkpoint_conversion_mapping = {}
     _tied_weights_keys = []  # Weights are not tied
     config_class = MolmoActConfig
@@ -1858,9 +1858,9 @@ class MolmoActForConditionalActionGeneration(MolmoActPreTrainedModel, Generation
         ```python
         >>> from PIL import Image
         >>> import requests
-        >>> from transformers import AutoProcessor, MolmoActForConditionalActionGeneration
-        >>> model = MolmoActForConditionalActionGeneration.from_pretrained("...")
         >>> processor = AutoProcessor.from_pretrained("...")
         >>> prompt = "What's the content of the image?"
@@ -2096,5 +2096,5 @@ class MolmoActForConditionalActionGeneration(MolmoActPreTrainedModel, Generation
 # Always register for multi-modal features
-AutoModelForImageTextToText.register(MolmoActConfig, MolmoActForConditionalActionGeneration)
 AutoModelForCausalLM.register(MolmoActLlmConfig, MolmoActForCausalLM)

     "The MolmoAct model which consists of a vision backbone and a language model + lm head.",
     MOLMO_START_DOCSTRING,
 )
+class MolmoActForActionReasoning(MolmoActPreTrainedModel, GenerationMixin):
     _checkpoint_conversion_mapping = {}
     _tied_weights_keys = []  # Weights are not tied
     config_class = MolmoActConfig
         ```python
         >>> from PIL import Image
         >>> import requests
+        >>> from transformers import AutoProcessor, MolmoActForActionReasoning
+        >>> model = MolmoActForActionReasoning.from_pretrained("...")
         >>> processor = AutoProcessor.from_pretrained("...")
         >>> prompt = "What's the content of the image?"
 # Always register for multi-modal features
+AutoModelForImageTextToText.register(MolmoActConfig, MolmoActForActionReasoning)
 AutoModelForCausalLM.register(MolmoActLlmConfig, MolmoActForCausalLM)