chunhuizng
/

AudioOnlyThinker

Text Generation

audio-only-thinker

Model card Files Files and versions

chunhuizng commited on Apr 9

Commit

392ead7

·

verified ·

1 Parent(s): a0f47b4

Update README.md

Files changed (1) hide show

README.md +21 -0

README.md CHANGED Viewed

@@ -49,6 +49,27 @@ class AudioOnlyThinker(Qwen2_5OmniThinkerForConditionalGeneration):
         return super().forward(*args, pixel_values=None, pixel_values_videos=None, **kwargs)
 model = AudioOnlyThinker.from_pretrained("chunhuizng/AudioOnlyThinker")
 ```
 ---

         return super().forward(*args, pixel_values=None, pixel_values_videos=None, **kwargs)
 model = AudioOnlyThinker.from_pretrained("chunhuizng/AudioOnlyThinker")
+from audio_only_processor import AudioOnlyProcessor
+processor = AudioOnlyProcessor.from_pretrained("chunhuizng/AudioOnlyThinker")
+conversation = [
+    {
+        "role": "user",
+        "content": [
+            {"type": "audio", "path": "your_audio.wav"},
+            {"type": "text", "text": "What is being said in this audio?"}
+        ]
+    }
+]
+inputs = processor.apply_chat_template(conversation, tokenize=True, return_tensors="pt")
+inputs = {k: v.to(model.device) for k, v in inputs.items()}
+outputs = model.generate(**inputs, max_new_tokens=128)
+response = processor.batch_decode(outputs, skip_special_tokens=True)[0]
+print(response)
 ```
 ---