Update app.py
Browse files
app.py
CHANGED
@@ -2,7 +2,6 @@ import streamlit as st
|
|
2 |
import pdfplumber
|
3 |
import docx
|
4 |
from transformers import AutoTokenizer, AutoModelForCausalLM
|
5 |
-
import string
|
6 |
|
7 |
st.title("JAI")
|
8 |
|
@@ -18,12 +17,6 @@ if st.checkbox("Korábbi Beszélgetések Törlése"):
|
|
18 |
tokenizer = AutoTokenizer.from_pretrained("pile-of-law/legalbert-large-1.7M-2")
|
19 |
model = AutoModelForCausalLM.from_pretrained("openai-community/gpt2", trust_remote_code=True)
|
20 |
|
21 |
-
# Karaktertisztító függvény
|
22 |
-
def clean_text(text):
|
23 |
-
cleaned_text = ''.join(filter(lambda x: x in string.printable, text))
|
24 |
-
return cleaned_text
|
25 |
-
|
26 |
-
|
27 |
# Dokumentumfeldolgozó függvény
|
28 |
def process_document(document_file):
|
29 |
document_text = ""
|
@@ -52,7 +45,7 @@ def process_document(document_file):
|
|
52 |
# Válaszgeneráló függvény
|
53 |
def generate_response(input_text):
|
54 |
# Bemeneti szöveg tisztítása
|
55 |
-
cleaned_input =
|
56 |
|
57 |
# Tokenizálás
|
58 |
inputs = tokenizer(cleaned_input, return_tensors="pt", max_length=1024, truncation=True)
|
@@ -60,8 +53,9 @@ def generate_response(input_text):
|
|
60 |
# Modell használata a válasz generálásához
|
61 |
outputs = model(**inputs)
|
62 |
|
63 |
-
# Válasz
|
64 |
response = tokenizer.decode(outputs.logits.argmax(dim=1)[0])
|
|
|
65 |
return response
|
66 |
|
67 |
# Dokumentum feltöltése drag and drop segítségével
|
|
|
2 |
import pdfplumber
|
3 |
import docx
|
4 |
from transformers import AutoTokenizer, AutoModelForCausalLM
|
|
|
5 |
|
6 |
st.title("JAI")
|
7 |
|
|
|
17 |
tokenizer = AutoTokenizer.from_pretrained("pile-of-law/legalbert-large-1.7M-2")
|
18 |
model = AutoModelForCausalLM.from_pretrained("openai-community/gpt2", trust_remote_code=True)
|
19 |
|
|
|
|
|
|
|
|
|
|
|
|
|
20 |
# Dokumentumfeldolgozó függvény
|
21 |
def process_document(document_file):
|
22 |
document_text = ""
|
|
|
45 |
# Válaszgeneráló függvény
|
46 |
def generate_response(input_text):
|
47 |
# Bemeneti szöveg tisztítása
|
48 |
+
cleaned_input = input_text.strip()
|
49 |
|
50 |
# Tokenizálás
|
51 |
inputs = tokenizer(cleaned_input, return_tensors="pt", max_length=1024, truncation=True)
|
|
|
53 |
# Modell használata a válasz generálásához
|
54 |
outputs = model(**inputs)
|
55 |
|
56 |
+
# Válasz dekódolása és megjelenítése
|
57 |
response = tokenizer.decode(outputs.logits.argmax(dim=1)[0])
|
58 |
+
response = response.decode('utf-8', errors='replace')
|
59 |
return response
|
60 |
|
61 |
# Dokumentum feltöltése drag and drop segítségével
|