Spaces:

albhu
/

legalgeek

Runtime error

albhu commited on Apr 25, 2024

Commit

71f7c83

verified ·

1 Parent(s): 19d6da7

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -2,7 +2,6 @@ import streamlit as st
 import pdfplumber
 import docx
 from transformers import AutoTokenizer, AutoModelForCausalLM
-import string
 st.title("JAI")
@@ -18,12 +17,6 @@ if st.checkbox("Korábbi Beszélgetések Törlése"):
 tokenizer = AutoTokenizer.from_pretrained("pile-of-law/legalbert-large-1.7M-2")
 model = AutoModelForCausalLM.from_pretrained("openai-community/gpt2", trust_remote_code=True)
-# Karaktertisztító függvény
-def clean_text(text):
-    cleaned_text = ''.join(filter(lambda x: x in string.printable, text))
-    return cleaned_text
 # Dokumentumfeldolgozó függvény
 def process_document(document_file):
     document_text = ""
@@ -52,7 +45,7 @@ def process_document(document_file):
 # Válaszgeneráló függvény
 def generate_response(input_text):
     # Bemeneti szöveg tisztítása
-    cleaned_input = clean_text(input_text.strip())
     # Tokenizálás
     inputs = tokenizer(cleaned_input, return_tensors="pt", max_length=1024, truncation=True)
@@ -60,8 +53,9 @@ def generate_response(input_text):
     # Modell használata a válasz generálásához
     outputs = model(**inputs)
-    # Válasz visszaadása
     response = tokenizer.decode(outputs.logits.argmax(dim=1)[0])
     return response
 # Dokumentum feltöltése drag and drop segítségével

 import pdfplumber
 import docx
 from transformers import AutoTokenizer, AutoModelForCausalLM
 st.title("JAI")
 tokenizer = AutoTokenizer.from_pretrained("pile-of-law/legalbert-large-1.7M-2")
 model = AutoModelForCausalLM.from_pretrained("openai-community/gpt2", trust_remote_code=True)
 # Dokumentumfeldolgozó függvény
 def process_document(document_file):
     document_text = ""
 # Válaszgeneráló függvény
 def generate_response(input_text):
     # Bemeneti szöveg tisztítása
+    cleaned_input = input_text.strip()
     # Tokenizálás
     inputs = tokenizer(cleaned_input, return_tensors="pt", max_length=1024, truncation=True)
     # Modell használata a válasz generálásához
     outputs = model(**inputs)
+    # Válasz dekódolása és megjelenítése
     response = tokenizer.decode(outputs.logits.argmax(dim=1)[0])
+    response = response.decode('utf-8', errors='replace')
     return response
 # Dokumentum feltöltése drag and drop segítségével