Spaces:

NoaiGPT
/

lexical

Build error

App Files Files Community

NoaiGPT commited on Jul 9, 2024

Commit

9a04025

1 Parent(s): a63315d

asd

Browse files

Files changed (1) hide show

app.py +37 -22

app.py CHANGED Viewed

@@ -3,6 +3,7 @@ import json
 import gradio as gr
 import spaces
 import torch
 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, AutoModelForSequenceClassification
 from sentence_splitter import SentenceSplitter
 from itertools import product
@@ -37,33 +38,45 @@ def classify_text(text):
     main_score = probabilities[0][predicted_class].item()
     return main_label, main_score
 @spaces.GPU
 def generate_paraphrases(text, setting, output_format):
     sentences = splitter.split(text)
     all_sentence_paraphrases = []
     if setting == 1:
-        temperature = 0.6
-        num_beams = 8
-        num_return_sequences = 2
-    elif setting == 2:
         temperature = 0.7
-        num_beams = 8
         num_return_sequences = 3
-    elif setting == 3:
         temperature = 0.8
-        num_beams = 8
         num_return_sequences = 4
-    elif setting == 4:
         temperature = 0.9
-        num_beams = 8
         num_return_sequences = 5
-    else:
         temperature = 1.0
-        num_beams = 8
-        num_return_sequences = 5
-    max_length = 64
     formatted_output = "Original text:\n" + text + "\n\n"
     formatted_output += "Paraphrased versions:\n"
@@ -78,20 +91,21 @@ def generate_paraphrases(text, setting, output_format):
     for i, sentence in enumerate(sentences):
         inputs = paraphraser_tokenizer(f'paraphraser: {sentence}', return_tensors="pt", padding="longest", truncation=True, max_length=max_length).input_ids.to(device)
-        # Generate paraphrases
         outputs = paraphraser_model.generate(
             inputs,
-            num_beams=num_beams,
-            num_beam_groups=num_beams,
             num_return_sequences=num_return_sequences,
-            repetition_penalty=10.0,
-            diversity_penalty=3.0,
-            no_repeat_ngram_size=2,
             temperature=temperature,
             max_length=max_length
         )
         paraphrases = paraphraser_tokenizer.batch_decode(outputs, skip_special_tokens=True)
         formatted_output += f"Original sentence {i+1}: {sentence}\n"
         for j, paraphrase in enumerate(paraphrases, 1):
@@ -106,6 +120,7 @@ def generate_paraphrases(text, setting, output_format):
         formatted_output += "\n"
     all_combinations = list(product(*all_sentence_paraphrases))
     formatted_output += "\nCombined paraphrased versions:\n"
     combined_versions = []
@@ -121,7 +136,7 @@ def generate_paraphrases(text, setting, output_format):
         label, score = classify_text(version)
         formatted_output += f"Version {i}:\n{version}\n"
         formatted_output += f"Classification: {label} (confidence: {score:.2%})\n\n"
-        if label == "human-produced" or (label == "machine-generated" and score < 0.98):
             human_versions.append((version, label, score))
     formatted_output += "\nHuman-like or Less Confident Machine-generated versions:\n"
@@ -152,7 +167,7 @@ iface = gr.Interface(
     fn=generate_paraphrases,
     inputs=[
         gr.Textbox(lines=5, label="Input Text"),
-        gr.Slider(minimum=1, maximum=5, step=1, label="Readability to Human-like Setting"),
         gr.Radio(["text", "json"], label="Output Format")
     ],
     outputs=[
@@ -160,7 +175,7 @@ iface = gr.Interface(
         gr.Textbox(lines=10, label="Human-like or Less Confident Machine-generated Paraphrases")
     ],
     title="Advanced Diverse Paraphraser with Human-like Filter",
-    description="Enter a text, select a setting from readable to human-like, and choose the output format to generate diverse paraphrased versions. Combined versions are classified, and those detected as human-produced or less confidently machine-generated are presented in the final output."
 )
 # Launch the interface

 import gradio as gr
 import spaces
 import torch
+import random
 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, AutoModelForSequenceClassification
 from sentence_splitter import SentenceSplitter
 from itertools import product
     main_score = probabilities[0][predicted_class].item()
     return main_label, main_score
+def introduce_errors(text):
+    words = text.split()
+    if len(words) > 3:
+        i = random.randint(0, len(words) - 1)
+        words[i] = words[i].lower() if words[i][0].isupper() else words[i].capitalize()
+    return ' '.join(words)
 @spaces.GPU
 def generate_paraphrases(text, setting, output_format):
     sentences = splitter.split(text)
     all_sentence_paraphrases = []
     if setting == 1:
         temperature = 0.7
+        top_p = 0.95
+        top_k = 50
         num_return_sequences = 3
+    elif setting == 2:
         temperature = 0.8
+        top_p = 0.9
+        top_k = 40
         num_return_sequences = 4
+    elif setting == 3:
         temperature = 0.9
+        top_p = 0.85
+        top_k = 30
         num_return_sequences = 5
+    elif setting == 4:
         temperature = 1.0
+        top_p = 0.8
+        top_k = 20
+        num_return_sequences = 6
+    else:
+        temperature = 1.1
+        top_p = 0.75
+        top_k = 10
+        num_return_sequences = 7
+    max_length = 128
     formatted_output = "Original text:\n" + text + "\n\n"
     formatted_output += "Paraphrased versions:\n"
     for i, sentence in enumerate(sentences):
         inputs = paraphraser_tokenizer(f'paraphraser: {sentence}', return_tensors="pt", padding="longest", truncation=True, max_length=max_length).input_ids.to(device)
+        # Generate paraphrases using sampling
         outputs = paraphraser_model.generate(
             inputs,
+            do_sample=True,
             num_return_sequences=num_return_sequences,
             temperature=temperature,
+            top_p=top_p,
+            top_k=top_k,
+            repetition_penalty=1.2,
+            no_repeat_ngram_size=2,
             max_length=max_length
         )
         paraphrases = paraphraser_tokenizer.batch_decode(outputs, skip_special_tokens=True)
+        paraphrases = [introduce_errors(p) for p in paraphrases]
         formatted_output += f"Original sentence {i+1}: {sentence}\n"
         for j, paraphrase in enumerate(paraphrases, 1):
         formatted_output += "\n"
     all_combinations = list(product(*all_sentence_paraphrases))
+    random.shuffle(all_combinations)
     formatted_output += "\nCombined paraphrased versions:\n"
     combined_versions = []
         label, score = classify_text(version)
         formatted_output += f"Version {i}:\n{version}\n"
         formatted_output += f"Classification: {label} (confidence: {score:.2%})\n\n"
+        if label == "human-produced" or (label == "machine-generated" and score < 0.95):
             human_versions.append((version, label, score))
     formatted_output += "\nHuman-like or Less Confident Machine-generated versions:\n"
     fn=generate_paraphrases,
     inputs=[
         gr.Textbox(lines=5, label="Input Text"),
+        gr.Slider(minimum=1, maximum=5, step=1, label="Diversity Setting"),
         gr.Radio(["text", "json"], label="Output Format")
     ],
     outputs=[
         gr.Textbox(lines=10, label="Human-like or Less Confident Machine-generated Paraphrases")
     ],
     title="Advanced Diverse Paraphraser with Human-like Filter",
+    description="Enter a text, select a diversity setting, and choose the output format to generate diverse paraphrased versions. Combined versions are classified, and those detected as human-produced or less confidently machine-generated are presented in the final output."
 )
 # Launch the interface