Spaces:

seayala
/

Simple-Audio-Classification-Keras

Sleeping

App Files Files Community

seayala commited on Apr 27

Commit

8d5fb9b

verified ·

1 Parent(s): d9e970c

Update app.py

Browse files

Files changed (1) hide show

app.py +35 -15

app.py CHANGED Viewed

@@ -2,41 +2,61 @@ import gradio as gr
 import tensorflow as tf
 import librosa
 import numpy as np
 # Diccionario de etiquetas
 labels = ['down', 'go', 'left', 'no', 'off', 'on', 'right', 'stop', 'up', 'yes']
 def extract_features(file_name):
     try:
-        audio, sample_rate = librosa.load(file_name, res_type='kaiser_fast')
-        mfccs = librosa.feature.mfcc(y=audio, sr=sample_rate, n_mfcc=40)
-        mfccsscaled = np.mean(mfccs.T,axis=0)
     except Exception as e:
         print(f"Error encountered while parsing file: {file_name}")
-        print(e)  # Imprime la excepción completa
         return None
-    return mfccsscaled
 def classify_audio(audio_file):
-    print(f"Tipo de audio_file: {type(audio_file)}")  # Debería imprimir <class 'str'>
-    # Preprocesa el audio directamente
-    features = extract_features(audio_file)
     if features is None:
-        return "Error al procesar el audio"
-    features = features.reshape(1, -1)
-    # Carga el modelo (asegúrate que 'my_model.h5' esté en el mismo directorio)
     model = tf.keras.models.load_model('my_model.h5', compile=False)
     with tf.device('/CPU:0'):
         prediction = model.predict(features)
         predicted_label_index = np.argmax(prediction)
     predicted_label = labels[predicted_label_index]
     return predicted_label
@@ -48,4 +68,4 @@ iface = gr.Interface(
     description="Sube un archivo de audio para clasificarlo."
 )
-iface.launch()

 import tensorflow as tf
 import librosa
 import numpy as np
+import tempfile
 # Diccionario de etiquetas
 labels = ['down', 'go', 'left', 'no', 'off', 'on', 'right', 'stop', 'up', 'yes']
 def extract_features(file_name):
     try:
+        # Carga el audio sin cambiar el sample rate
+        audio, sample_rate = librosa.load(file_name, sr=None)
+        # Saca el espectrograma de magnitud
+        spectrogram = np.abs(librosa.stft(audio, n_fft=512, hop_length=256))
+        # Convierte a escala logarítmica (como normalmente esperan los modelos de audio)
+        log_spectrogram = librosa.amplitude_to_db(spectrogram)
+        # Ajusta tamaño exacto
+        log_spectrogram = librosa.util.fix_length(log_spectrogram, size=257, axis=0)
+        log_spectrogram = librosa.util.fix_length(log_spectrogram, size=97, axis=1)
+        # Normaliza
+        log_spectrogram = (log_spectrogram - np.mean(log_spectrogram)) / np.std(log_spectrogram)
+        # Añade canal para la red convolucional
+        log_spectrogram = log_spectrogram[..., np.newaxis]
     except Exception as e:
         print(f"Error encountered while parsing file: {file_name}")
+        print(e)
         return None
+    return log_spectrogram
 def classify_audio(audio_file):
+    print(f"Tipo de audio_file: {type(audio_file)}")
+    # El tipo es string (ruta), no hace falta leer ni escribir en temp files
+    file_path = audio_file
+    # Extrae características
+    features = extract_features(file_path)
     if features is None:
+        return "Error al procesar el audio"
+    # Añade batch dimension
+    features = features[np.newaxis, ...]  # (1, 97, 257, 1)
+    # Carga el modelo en CPU
     model = tf.keras.models.load_model('my_model.h5', compile=False)
     with tf.device('/CPU:0'):
         prediction = model.predict(features)
         predicted_label_index = np.argmax(prediction)
     predicted_label = labels[predicted_label_index]
     return predicted_label
     description="Sube un archivo de audio para clasificarlo."
 )
+iface.launch()