Spaces:

Arpit24052003
/

Arpit-paraphraser-app

Running

App Files Files Community

Arpit24052003 commited on Jun 29

Commit

3998bf9

verified ·

1 Parent(s): b93d97e

Update app.py

Browse files

Files changed (1) hide show

app.py +6 -33

app.py CHANGED Viewed

@@ -1,4 +1,3 @@
 import gradio as gr
 from docx import Document
 import io
@@ -14,41 +13,14 @@ def paraphrase_text(text):
     output_ids = model.generate(input_ids, max_length=256, do_sample=True, top_k=120, top_p=0.95, temperature=1.5)
     return tokenizer.decode(output_ids[0], skip_special_tokens=True)
-import nltk
-nltk.download('punkt')
-from nltk.tokenize import sent_tokenize
-def chunk_text(text, max_tokens=350):
-    sentences = sent_tokenize(text)
-    chunks = []
-    current_chunk = ""
-    current_len = 0
-    for sentence in sentences:
-        token_len = len(sentence.split())
-        if current_len + token_len <= max_tokens:
-            current_chunk += " " + sentence
-            current_len += token_len
-        else:
-            chunks.append(current_chunk.strip())
-            current_chunk = sentence
-            current_len = token_len
-    if current_chunk:
-        chunks.append(current_chunk.strip())
-    return chunks
 def full_article_paraphrase(text):
     chunks = chunk_text(text)
-    results = []
-    for chunk in chunks:
-        try:
-            result = paraphrase_text(chunk.strip())
-            results.append(result)
-        except Exception as e:
-            results.append(f"[Error paraphrasing chunk: {e}]")
-    return "\n\n".join(results)
 def extract_text_from_docx(file_obj):
     file_bytes = file_obj.read() if hasattr(file_obj, "read") else file_obj
@@ -95,3 +67,4 @@ demo = gr.Interface(
 if __name__ == "__main__":
     demo.launch()

 import gradio as gr
 from docx import Document
 import io
     output_ids = model.generate(input_ids, max_length=256, do_sample=True, top_k=120, top_p=0.95, temperature=1.5)
     return tokenizer.decode(output_ids[0], skip_special_tokens=True)
+def chunk_text(text, max_sentences=4):
+    import re
+    sentences = re.split(r'(?<=[.!?]) +', text.strip())
+    return [' '.join(sentences[i:i+max_sentences]) for i in range(0, len(sentences), max_sentences)]
 def full_article_paraphrase(text):
     chunks = chunk_text(text)
+    return "\n\n".join(paraphrase_text(chunk.strip()) for chunk in chunks if chunk.strip())
 def extract_text_from_docx(file_obj):
     file_bytes = file_obj.read() if hasattr(file_obj, "read") else file_obj
 if __name__ == "__main__":
     demo.launch()