Spaces:

fcernafukuzaki
/

speech_recognition_pipeline

Sleeping

App Files Files Community

fcernafukuzaki commited on Sep 21, 2024

Commit

9ef0fe3

verified ·

1 Parent(s): 6022473

Update app.py

Browse files

Files changed (1) hide show

app.py +2 -25

app.py CHANGED Viewed

@@ -22,38 +22,15 @@ def transcribe_long_form(filepath):
     return output["text"]
 ner = pipeline("ner",
-                   model="mrm8488/bert-spanish-cased-finetuned-ner",  # Modelo preentrenado para NER en español
-                   #tokenizer="mrm8488/bert-spanish-cased-finetuned-ner",
-                   #aggregation_strategy="simple"  # Esto combina las etiquetas en entidades completas
-                   #max_length=512
 )
-def merge_tokens(tokens):
-    merged_tokens = []
-    for token in tokens:
-        if merged_tokens and token['entity'].startswith('I-') and merged_tokens[-1]['entity'].endswith(token['entity'][2:]):
-            # If current token continues the entity of the last one, merge them
-            last_token = merged_tokens[-1]
-            last_token['word'] += token['word'].replace('##', '')
-            last_token['end'] = token['end']
-            last_token['score'] = (last_token['score'] + token['score']) / 2
-        else:
-            # Otherwise, add the token to the list
-            merged_tokens.append(token)
-    return merged_tokens
 def get_ner(input_text):
     if input_text is None:
         gr.Warning("No transcription found, please retry.")
         return {"text": "", "entities": ""}
-    print(input_text)
-    #output = get_ner(input_text, max_length=128)
     output = ner(input_text)
-    print(output)
-    merged_tokens = merge_tokens(output)
-    print(merged_tokens)
-    return {"text": input_text, "entities": merged_tokens}
 def main(filepath):
     transcription = transcribe_long_form(filepath)

     return output["text"]
 ner = pipeline("ner",
+               model="mrm8488/bert-spanish-cased-finetuned-ner",
 )
 def get_ner(input_text):
     if input_text is None:
         gr.Warning("No transcription found, please retry.")
         return {"text": "", "entities": ""}
     output = ner(input_text)
+    return {"text": input_text, "entities": output}
 def main(filepath):
     transcription = transcribe_long_form(filepath)