THUDM
/

glm-4-9b-chat

@@ -924,10 +924,17 @@ class ChatGLMForConditionalGeneration(ChatGLMPreTrainedModel):
             outputs: ModelOutput,
             model_kwargs: Dict[str, Any],
             is_encoder_decoder: bool = False,
     ) -> Dict[str, Any]:
         # update past_key_values
-        cache_name, cache = self._extract_past_from_model_output(outputs)
-        model_kwargs[cache_name] = cache
         # update attention mask
         if "attention_mask" in model_kwargs:
@@ -946,6 +953,10 @@ class ChatGLMForConditionalGeneration(ChatGLMPreTrainedModel):
             )
         model_kwargs["is_first_forward"] = False
         return model_kwargs
     def prepare_inputs_for_generation(

             outputs: ModelOutput,
             model_kwargs: Dict[str, Any],
             is_encoder_decoder: bool = False,
+            num_new_tokens: int = 1,
     ) -> Dict[str, Any]:
         # update past_key_values
+        for possible_cache_name in ["past_key_values", "mems", "past_buckets_states", "cache_params"]:
+            if hasattr(outputs, possible_cache_name):
+                if possible_cache_name in ("past_buckets_states", "mems"):
+                    cache_name = "past_key_values"
+                else:
+                    cache_name = possible_cache_name
+                model_kwargs[cache_name] = getattr(outputs, possible_cache_name)
+                break
         # update attention mask
         if "attention_mask" in model_kwargs:
             )
         model_kwargs["is_first_forward"] = False
+        if model_kwargs.get("use_cache", True) and "cache_position" in model_kwargs:
+            model_kwargs["cache_position"] = model_kwargs["cache_position"][-1:] + num_new_tokens
         return model_kwargs
     def prepare_inputs_for_generation(