AlexHung29629
/

test_mllama_11B_v2.bak

Feature Extraction

Model card Files Files and versions Community

AlexHung29629 commited on Oct 30, 2024

Commit

19d6896

·

verified ·

1 Parent(s): 36c6eac

Update modeling_llama3.py

Files changed (1) hide show

modeling_llama3.py +2 -2

modeling_llama3.py CHANGED Viewed

@@ -341,7 +341,7 @@ class Llama3ForCausalLM(Llama3PreTrainedModel, GenerationMixin):
         self.vocab_size = self.text_config.vocab_size
         self.model = Llama3TextModel._from_config(config, attn_implementation=config._attn_implementation)
         self.lm_head = nn.Linear(self.text_config.hidden_size, self.vocab_size, bias=False)
         self.post_init()
     def get_input_embeddings(self):
@@ -409,7 +409,7 @@ class Llama3ForCausalLM(Llama3PreTrainedModel, GenerationMixin):
         loss = None
         if labels is not None:
-            loss = ForCausalLMLoss(logits, labels, self.vocab_size, **loss_kwargs)
         if not return_dict:
             output = (logits,) + outputs[1:]

         self.vocab_size = self.text_config.vocab_size
         self.model = Llama3TextModel._from_config(config, attn_implementation=config._attn_implementation)
         self.lm_head = nn.Linear(self.text_config.hidden_size, self.vocab_size, bias=False)
+        self.loss_function = ForCausalLMLoss
         self.post_init()
     def get_input_embeddings(self):
         loss = None
         if labels is not None:
+            loss = self.loss_function(logits, labels, self.vocab_size, **loss_kwargs)
         if not return_dict:
             output = (logits,) + outputs[1:]