Spaces:

Demosthene-OR
/

avr23-cds-translation

Running

App Files Files Community

Demosthene-OR commited on Mar 9, 2024

Commit

b49c7c6

1 Parent(s): 7adca4e

Allegements

Browse files

Files changed (6) hide show

requirements.txt +0 -10
tabs/data_viz_tab.py +0 -3
tabs/exploration_tab.py +1 -2
tabs/id_lang_tab.py +0 -3
tabs/modelisation_dict_tab.py +0 -1
tabs/modelisation_seq2seq_tab.py +26 -16

requirements.txt CHANGED Viewed

@@ -6,16 +6,13 @@ numpy==1.23.5
 seaborn==0.13.2
 nltk==3.8.1
 scikit-learn==1.1.3
-scikit-learn-extra==0.3.0
 gensim==4.3.2
 sacrebleu==2.4.0
-pyspellchecker==0.8.1
 spacy==3.6.0
 https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.6.0/en_core_web_sm-3.6.0.tar.gz
 https://github.com/explosion/spacy-models/releases/download/fr_core_news_sm-3.6.0/fr_core_news_sm-3.6.0.tar.gz
 pillow==9.5.0
 wordcloud==1.9.3
-pathlib==1.0.1
 networkx==2.7.0
 transformers==4.37.2
 keras-nlp==0.6.1
@@ -23,13 +20,9 @@ keras==2.12.0
 tensorflow==2.12.0
 sentencepiece==0.1.99
 openai-whisper==20231117
-sounddevice==0.4.6
 torch==2.2.0
-xformers==0.0.24
-translate==3.6.1
 speechrecognition==3.10.1
 audio_recorder_streamlit==0.0.8
-wave==0.0.2
 whisper==1.1.10
 wavio==0.0.8
 filesplit==4.0.1
@@ -39,7 +32,4 @@ graphviz==0.20.1
 gTTS==2.5.1
 https://files.pythonhosted.org/packages/cc/58/96aff0e5cb8b59c06232ea7e249ed902d04ec89f52636f5be06ceb0855fe/extra_streamlit_components-0.1.60-py3-none-any.whl
 streamlit-option-menu==0.3.12
-plotly==5.18.0
-bokeh==3.3.4
-shap==0.44.1
 deep-translator==1.11.4

 seaborn==0.13.2
 nltk==3.8.1
 scikit-learn==1.1.3
 gensim==4.3.2
 sacrebleu==2.4.0
 spacy==3.6.0
 https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.6.0/en_core_web_sm-3.6.0.tar.gz
 https://github.com/explosion/spacy-models/releases/download/fr_core_news_sm-3.6.0/fr_core_news_sm-3.6.0.tar.gz
 pillow==9.5.0
 wordcloud==1.9.3
 networkx==2.7.0
 transformers==4.37.2
 keras-nlp==0.6.1
 tensorflow==2.12.0
 sentencepiece==0.1.99
 openai-whisper==20231117
 torch==2.2.0
 speechrecognition==3.10.1
 audio_recorder_streamlit==0.0.8
 whisper==1.1.10
 wavio==0.0.8
 filesplit==4.0.1
 gTTS==2.5.1
 https://files.pythonhosted.org/packages/cc/58/96aff0e5cb8b59c06232ea7e249ed902d04ec89f52636f5be06ceb0855fe/extra_streamlit_components-0.1.60-py3-none-any.whl
 streamlit-option-menu==0.3.12
 deep-translator==1.11.4

tabs/data_viz_tab.py CHANGED Viewed

@@ -7,9 +7,6 @@ import numpy as np
 import pandas as pd
 import matplotlib.pyplot as plt
 import seaborn as sns
-import plotly.express as px
-import plotly.graph_objects as go
-import plotly.figure_factory as ff
 from wordcloud import WordCloud
 import nltk
 from nltk.corpus import stopwords

 import pandas as pd
 import matplotlib.pyplot as plt
 import seaborn as sns
 from wordcloud import WordCloud
 import nltk
 from nltk.corpus import stopwords

tabs/exploration_tab.py CHANGED Viewed

@@ -1,6 +1,5 @@
 import streamlit as st
 import os
-import numpy as np
 import pandas as pd
 import collections
 from nltk.tokenize import word_tokenize
@@ -8,7 +7,7 @@ from nltk import download
 from ast import literal_eval
 from translate_app import tr
 if st.session_state.Cloud == 0:
-    import nltk
     import contextlib
     import re
     from nltk.corpus import stopwords

 import streamlit as st
 import os
 import pandas as pd
 import collections
 from nltk.tokenize import word_tokenize
 from ast import literal_eval
 from translate_app import tr
 if st.session_state.Cloud == 0:
+    # import nltk
     import contextlib
     import re
     from nltk.corpus import stopwords

tabs/id_lang_tab.py CHANGED Viewed

@@ -1,10 +1,8 @@
 import streamlit as st
 import pandas as pd
 import numpy as np
-import os
 import matplotlib.pyplot as plt
 import tiktoken
-import random
 import joblib
 import json
 import csv
@@ -12,7 +10,6 @@ from transformers import pipeline
 import keras
 from tensorflow.keras.preprocessing.sequence import pad_sequences
 from sklearn.preprocessing import LabelEncoder
-from sklearn.feature_extraction.text import CountVectorizer
 from tensorflow.keras.utils import plot_model
 from filesplit.merge import Merge
 from extra_streamlit_components import tab_bar, TabBarItemData

 import streamlit as st
 import pandas as pd
 import numpy as np
 import matplotlib.pyplot as plt
 import tiktoken
 import joblib
 import json
 import csv
 import keras
 from tensorflow.keras.preprocessing.sequence import pad_sequences
 from sklearn.preprocessing import LabelEncoder
 from tensorflow.keras.utils import plot_model
 from filesplit.merge import Merge
 from extra_streamlit_components import tab_bar, TabBarItemData

tabs/modelisation_dict_tab.py CHANGED Viewed

@@ -1,6 +1,5 @@
 import streamlit as st
 import pandas as pd
-import numpy as np
 import os
 from sacrebleu import corpus_bleu
 if st.session_state.Cloud == 0:

 import streamlit as st
 import pandas as pd
 import os
 from sacrebleu import corpus_bleu
 if st.session_state.Cloud == 0:

tabs/modelisation_seq2seq_tab.py CHANGED Viewed

@@ -4,12 +4,12 @@ import numpy as np
 import os
 from sacrebleu import corpus_bleu
 from transformers import pipeline
-from translate import Translator
 from audio_recorder_streamlit import audio_recorder
 import speech_recognition as sr
 import whisper
 import io
-# import wave
 import wavio
 from filesplit.merge import Merge
 import tensorflow as tf
@@ -19,7 +19,7 @@ from tensorflow import keras
 from keras_nlp.layers import TransformerEncoder
 from tensorflow.keras import layers
 from tensorflow.keras.utils import plot_model
-from PIL import Image
 from gtts import gTTS
 from extra_streamlit_components import tab_bar, TabBarItemData
 from translate_app import tr
@@ -463,7 +463,8 @@ def run():
         with col2:
             st.write(":red[**Trad. Google Translate**]")
             try:
-                translator = Translator(to_lang=l_tgt, from_lang=Lang_detected)
                 if custom_sentence!="":
                     translation = translator.translate(custom_sentence)
                     st.write("**"+l_tgt+" :**  "+translation)
@@ -488,31 +489,39 @@ def run():
             st.write("## **"+tr("Résultats")+" :**\n")
             st.audio(audio_bytes, format="audio/wav")
             try:
-                if detection:
-                    # Create a BytesIO object from the audio stream
-                    audio_stream_bytesio = io.BytesIO(audio_bytes)
-                    # Read the WAV stream using wavio
-                    wav = wavio.read(audio_stream_bytesio)
-                    # Extract the audio data from the wavio.Wav object
-                    audio_data = wav.data
-                    # Convert the audio data to a NumPy array
-                    audio_input = np.array(audio_data, dtype=np.float32)
-                    audio_input = np.mean(audio_input, axis=1)/32768
                     result = model_speech.transcribe(audio_input)
                     st.write(tr("Langue détectée")+" : "+result["language"])
                     Lang_detected = result["language"]
                     # Transcription Whisper (si result a été préalablement calculé)
                     custom_sentence = result["text"]
                 else:
                     Lang_detected = l_src
                     # Transcription google
                     audio_stream = sr.AudioData(audio_bytes, 32000, 2)
                     r = sr.Recognizer()
                     custom_sentence = r.recognize_google(audio_stream, language = Lang_detected)
                 if custom_sentence!="":
                     # Lang_detected = lang_classifier (custom_sentence)[0]['label']
@@ -520,7 +529,8 @@ def run():
                     st.write("")
                     st.write("**"+Lang_detected+" :**  :blue["+custom_sentence+"]")
                     st.write("")
-                    translator = Translator(to_lang=l_tgt, from_lang=Lang_detected)
                     translation = translator.translate(custom_sentence)
                     st.write("**"+l_tgt+" :**  "+translation)
                     st.write("")

 import os
 from sacrebleu import corpus_bleu
 from transformers import pipeline
+# from translate import Translator
+from deep_translator import GoogleTranslator
 from audio_recorder_streamlit import audio_recorder
 import speech_recognition as sr
 import whisper
 import io
 import wavio
 from filesplit.merge import Merge
 import tensorflow as tf
 from keras_nlp.layers import TransformerEncoder
 from tensorflow.keras import layers
 from tensorflow.keras.utils import plot_model
+# from PIL import Image
 from gtts import gTTS
 from extra_streamlit_components import tab_bar, TabBarItemData
 from translate_app import tr
         with col2:
             st.write(":red[**Trad. Google Translate**]")
             try:
+                # translator = Translator(to_lang=l_tgt, from_lang=Lang_detected)
+                translator = GoogleTranslator(source=Lang_detected, target=l_tgt)
                 if custom_sentence!="":
                     translation = translator.translate(custom_sentence)
                     st.write("**"+l_tgt+" :**  "+translation)
             st.write("## **"+tr("Résultats")+" :**\n")
             st.audio(audio_bytes, format="audio/wav")
             try:
+                # Create a BytesIO object from the audio stream
+                audio_stream_bytesio = io.BytesIO(audio_bytes)
+                # Read the WAV stream using wavio
+                wav = wavio.read(audio_stream_bytesio)
+                # Extract the audio data from the wavio.Wav object
+                audio_data = wav.data
+                # Convert the audio data to a NumPy array
+                audio_input = np.array(audio_data, dtype=np.float32)
+                audio_input = np.mean(audio_input, axis=1)/32768
+                if detection:
                     result = model_speech.transcribe(audio_input)
                     st.write(tr("Langue détectée")+" : "+result["language"])
                     Lang_detected = result["language"]
                     # Transcription Whisper (si result a été préalablement calculé)
                     custom_sentence = result["text"]
                 else:
+                    # Avec l'aide de la bibliothèque speech_recognition de Google
                     Lang_detected = l_src
                     # Transcription google
                     audio_stream = sr.AudioData(audio_bytes, 32000, 2)
                     r = sr.Recognizer()
                     custom_sentence = r.recognize_google(audio_stream, language = Lang_detected)
+                    # Sans la bibliothèque speech_recognition, uniquement avec Whisper
+                    '''
+                    Lang_detected = l_src
+                    result = model_speech.transcribe(audio_input, language=Lang_detected)
+                    custom_sentence = result["text"]
+                    '''
                 if custom_sentence!="":
                     # Lang_detected = lang_classifier (custom_sentence)[0]['label']
                     st.write("")
                     st.write("**"+Lang_detected+" :**  :blue["+custom_sentence+"]")
                     st.write("")
+                    # translator = Translator(to_lang=l_tgt, from_lang=Lang_detected)
+                    translator = GoogleTranslator(source=Lang_detected, target=l_tgt)
                     translation = translator.translate(custom_sentence)
                     st.write("**"+l_tgt+" :**  "+translation)
                     st.write("")