Chitti-v2

Sleeping

App Files Files Community

Dhahlan2000 commited on Jun 21, 2024

Commit

b2834f1

verified ·

1 Parent(s): 36c2d7f

Update app.py

Browse files

Files changed (1) hide show

app.py +25 -25

app.py CHANGED Viewed

@@ -22,19 +22,19 @@ device = "cuda" if torch.cuda.is_available() else "cpu"
 translator = pipeline('translation', model=trans_model, tokenizer=eng_trans_tokenizer, src_lang="eng_Latn", tgt_lang=chat_language, max_length = 400, device=device)
 # Initialize translation pipelines
-pipe = pipeline("translation", model="thilina/mt5-sinhalese-english")
-sin_trans_model = AutoModelForSeq2SeqLM.from_pretrained("thilina/mt5-sinhalese-english")
-si_trans_tokenizer = AutoTokenizer.from_pretrained("thilina/mt5-sinhalese-english")
-singlish_pipe = pipeline("text2text-generation", model="Dhahlan2000/Simple_Translation-model-for-GPT-v15")
 # Translation functions
 def translate_Singlish_to_sinhala(text):
-    translated_text = singlish_pipe(f"translate Singlish to Sinhala: {text}", clean_up_tokenization_spaces=False)[0]['generated_text']
-    return translated_text.replace('\u200d', '')
 def translate_english_to_sinhala(text):
     # Split the text into sentences or paragraphs
@@ -47,21 +47,21 @@ def translate_english_to_sinhala(text):
     translated_text = "\n".join(translated_parts)
     return translated_text.replace("ප් රභූවරුන්", "").replace('\u200d', '')
-def translate_sinhala_to_english(text):
-    # Split the text into sentences or paragraphs
-    parts = text.split("\n")  # Split by new lines for paragraphs, adjust as needed
-    translated_parts = []
-    for part in parts:
-        # Tokenize each part
-        inputs = si_trans_tokenizer(part.strip(), return_tensors="pt", padding=True, truncation=True, max_length=512)
-        # Generate translation
-        outputs = sin_trans_model.generate(**inputs)
-        # Decode translated text while preserving formatting
-        translated_part = si_trans_tokenizer.decode(outputs[0], skip_special_tokens=True, clean_up_tokenization_spaces=False)
-        translated_parts.append(translated_part)
-    # Join the translated parts back together
-    translated_text = "\n".join(translated_parts)
-    return translated_text
 def transliterate_from_sinhala(text):
     # Define the source and target scripts
@@ -116,11 +116,11 @@ def conversation_predict(input_text):
 def ai_predicted(user_input):
     user_input = translate_Singlish_to_sinhala(user_input)
-    print("You(Singlish): ", user_input,"\n")
-    user_input = transliterate_to_sinhala(user_input)
-    print("You(Sinhala): ", user_input,"\n")
-    user_input = translate_sinhala_to_english(user_input)
     print("You(English): ", user_input,"\n")
     # Get AI response
     ai_response = conversation_predict(user_input)

 translator = pipeline('translation', model=trans_model, tokenizer=eng_trans_tokenizer, src_lang="eng_Latn", tgt_lang=chat_language, max_length = 400, device=device)
 # Initialize translation pipelines
+# pipe = pipeline("translation", model="thilina/mt5-sinhalese-english")
+# sin_trans_model = AutoModelForSeq2SeqLM.from_pretrained("thilina/mt5-sinhalese-english")
+# si_trans_tokenizer = AutoTokenizer.from_pretrained("thilina/mt5-sinhalese-english")
+singlish_pipe = pipeline("text2text-generation", model="Dhahlan2000/Chitti-Base-model-for-GPT-v7")
 # Translation functions
 def translate_Singlish_to_sinhala(text):
+    translated_text = singlish_pipe(f"translate Singlish to English: {text}", clean_up_tokenization_spaces=False)[0]['generated_text']
+    return translated_text
 def translate_english_to_sinhala(text):
     # Split the text into sentences or paragraphs
     translated_text = "\n".join(translated_parts)
     return translated_text.replace("ප් රභූවරුන්", "").replace('\u200d', '')
+# def translate_sinhala_to_english(text):
+#     # Split the text into sentences or paragraphs
+#     parts = text.split("\n")  # Split by new lines for paragraphs, adjust as needed
+#     translated_parts = []
+#     for part in parts:
+#         # Tokenize each part
+#         inputs = si_trans_tokenizer(part.strip(), return_tensors="pt", padding=True, truncation=True, max_length=512)
+#         # Generate translation
+#         outputs = sin_trans_model.generate(**inputs)
+#         # Decode translated text while preserving formatting
+#         translated_part = si_trans_tokenizer.decode(outputs[0], skip_special_tokens=True, clean_up_tokenization_spaces=False)
+#         translated_parts.append(translated_part)
+#     # Join the translated parts back together
+#     translated_text = "\n".join(translated_parts)
+#     return translated_text
 def transliterate_from_sinhala(text):
     # Define the source and target scripts
 def ai_predicted(user_input):
     user_input = translate_Singlish_to_sinhala(user_input)
     print("You(English): ", user_input,"\n")
+    # user_input = transliterate_to_sinhala(user_input)
+    # print("You(Sinhala): ", user_input,"\n")
+    # user_input = translate_sinhala_to_english(user_input)
+    # print("You(English): ", user_input,"\n")
     # Get AI response
     ai_response = conversation_predict(user_input)