d-matrix
/

Llama-3.2-3B

Model card Files Files and versions

zifei9 commited on Jul 9

Commit

681024c

·

verified ·

1 Parent(s): 3f419d7

Update modeling_llama.py

Files changed (1) hide show

modeling_llama.py +7 -2

modeling_llama.py CHANGED Viewed

@@ -961,12 +961,13 @@ class LlamaModel(LlamaPreTrainedModel):
             inputs_embeds = self.embed_tokens(input_ids)
         past_seen_tokens = 0
         if use_cache:  # kept for BC (cache positions)
             if past_key_values is not None and not isinstance(
                 past_key_values, StaticCache
             ):
                 if not isinstance(past_key_values, DynamicCache):
-                    used_legacy_cache=True
                     past_key_values = DynamicCache.from_legacy_cache(past_key_values)
                 past_seen_tokens = past_key_values.get_seq_length()
@@ -1038,7 +1039,11 @@ class LlamaModel(LlamaPreTrainedModel):
         next_cache = None
         if use_cache:
-            next_cache = next_decoder_cache.to_legacy_cache() if used_legacy_cache else next_decoder_cache
         if not return_dict:
             return tuple(
                 v

             inputs_embeds = self.embed_tokens(input_ids)
         past_seen_tokens = 0
+        used_legacy_cache = False
         if use_cache:  # kept for BC (cache positions)
             if past_key_values is not None and not isinstance(
                 past_key_values, StaticCache
             ):
                 if not isinstance(past_key_values, DynamicCache):
+                    used_legacy_cache = True
                     past_key_values = DynamicCache.from_legacy_cache(past_key_values)
                 past_seen_tokens = past_key_values.get_seq_length()
         next_cache = None
         if use_cache:
+            next_cache = (
+                next_decoder_cache.to_legacy_cache()
+                if used_legacy_cache
+                else next_decoder_cache
+            )
         if not return_dict:
             return tuple(
                 v