Spaces:

albhu
/

legalgeek

Runtime error

albhu commited on Apr 25, 2024

Commit

7f98a14

verified ·

1 Parent(s): f690e4f

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -2,6 +2,7 @@ import streamlit as st
 import pdfplumber
 import docx
 from transformers import AutoTokenizer, AutoModelForCausalLM
 st.title("JAI")
@@ -17,6 +18,12 @@ if st.checkbox("Korábbi Beszélgetések Törlése"):
 tokenizer = AutoTokenizer.from_pretrained("pile-of-law/legalbert-large-1.7M-2")
 model = AutoModelForCausalLM.from_pretrained("openai-community/gpt2", trust_remote_code=True)
 # Dokumentumfeldolgozó függvény
 def process_document(document_file):
     document_text = ""
@@ -45,7 +52,7 @@ def process_document(document_file):
 # Válaszgeneráló függvény
 def generate_response(input_text):
     # Bemeneti szöveg tisztítása
-    cleaned_input = input_text.strip()
     # Tokenizálás
     inputs = tokenizer(cleaned_input, return_tensors="pt", max_length=1024, truncation=True)

 import pdfplumber
 import docx
 from transformers import AutoTokenizer, AutoModelForCausalLM
+import string
 st.title("JAI")
 tokenizer = AutoTokenizer.from_pretrained("pile-of-law/legalbert-large-1.7M-2")
 model = AutoModelForCausalLM.from_pretrained("openai-community/gpt2", trust_remote_code=True)
+# Karaktertisztító függvény
+def clean_text(text):
+    printable = set(string.printable)
+    cleaned_text = ''.join(filter(lambda x: x in printable, text))
+    return cleaned_text
 # Dokumentumfeldolgozó függvény
 def process_document(document_file):
     document_text = ""
 # Válaszgeneráló függvény
 def generate_response(input_text):
     # Bemeneti szöveg tisztítása
+    cleaned_input = clean_text(input_text.strip())
     # Tokenizálás
     inputs = tokenizer(cleaned_input, return_tensors="pt", max_length=1024, truncation=True)