UsefulSensors
/

moonshine-base

Automatic Speech Recognition

Model card Files Files and versions

eustlb HF Staff commited on Jan 20

Commit

b091215

·

1 Parent(s): 67fca51

udpate readme

Files changed (1) hide show

README.md +13 -3

README.md CHANGED Viewed

@@ -38,9 +38,19 @@ dataset = load_dataset("hf-internal-testing/librispeech_asr_dummy", "clean", spl
 dataset = dataset.cast_column("audio", Audio(processor.feature_extractor.sampling_rate))
 sample = dataset[0]["audio"]
-inputs = processor(sample["array"], return_tensors="pt").to(device).to(torch_dtype)
-generated_ids = model.generate(**inputs)
 print(processor.decode(generated_ids[0], skip_special_tokens=True))
 ```

 dataset = dataset.cast_column("audio", Audio(processor.feature_extractor.sampling_rate))
 sample = dataset[0]["audio"]
+inputs = processor(
+    sample["array"],
+    return_tensors="pt",
+    sampling_rate=processor.feature_extractor.sampling_rate
+)
+inputs = inputs.to(device, torch_dtype)
+# to avoid hallucination loops, we limit the maximum length of the generated text based expected number of tokens per second
+token_limit_factor = 6.5 / processor.feature_extractor.sampling_rate  # Maximum of 6.5 tokens per second
+seq_lens = inputs.attention_mask.sum(dim=-1)
+max_length = int((seq_lens * token_limit_factor).max().item())
+generated_ids = model.generate(**inputs, max_length=max_length)
 print(processor.decode(generated_ids[0], skip_special_tokens=True))
 ```