Update app.py
Browse files
app.py
CHANGED
@@ -2,6 +2,7 @@ import streamlit as st
|
|
2 |
import pdfplumber
|
3 |
import docx
|
4 |
from transformers import AutoTokenizer, AutoModelForCausalLM
|
|
|
5 |
|
6 |
st.title("JAI")
|
7 |
|
@@ -17,6 +18,12 @@ if st.checkbox("Korábbi Beszélgetések Törlése"):
|
|
17 |
tokenizer = AutoTokenizer.from_pretrained("pile-of-law/legalbert-large-1.7M-2")
|
18 |
model = AutoModelForCausalLM.from_pretrained("openai-community/gpt2", trust_remote_code=True)
|
19 |
|
|
|
|
|
|
|
|
|
|
|
|
|
20 |
# Dokumentumfeldolgozó függvény
|
21 |
def process_document(document_file):
|
22 |
document_text = ""
|
@@ -45,7 +52,7 @@ def process_document(document_file):
|
|
45 |
# Válaszgeneráló függvény
|
46 |
def generate_response(input_text):
|
47 |
# Bemeneti szöveg tisztítása
|
48 |
-
cleaned_input = input_text.strip()
|
49 |
|
50 |
# Tokenizálás
|
51 |
inputs = tokenizer(cleaned_input, return_tensors="pt", max_length=1024, truncation=True)
|
|
|
2 |
import pdfplumber
|
3 |
import docx
|
4 |
from transformers import AutoTokenizer, AutoModelForCausalLM
|
5 |
+
import string
|
6 |
|
7 |
st.title("JAI")
|
8 |
|
|
|
18 |
tokenizer = AutoTokenizer.from_pretrained("pile-of-law/legalbert-large-1.7M-2")
|
19 |
model = AutoModelForCausalLM.from_pretrained("openai-community/gpt2", trust_remote_code=True)
|
20 |
|
21 |
+
# Karaktertisztító függvény
|
22 |
+
def clean_text(text):
|
23 |
+
printable = set(string.printable)
|
24 |
+
cleaned_text = ''.join(filter(lambda x: x in printable, text))
|
25 |
+
return cleaned_text
|
26 |
+
|
27 |
# Dokumentumfeldolgozó függvény
|
28 |
def process_document(document_file):
|
29 |
document_text = ""
|
|
|
52 |
# Válaszgeneráló függvény
|
53 |
def generate_response(input_text):
|
54 |
# Bemeneti szöveg tisztítása
|
55 |
+
cleaned_input = clean_text(input_text.strip())
|
56 |
|
57 |
# Tokenizálás
|
58 |
inputs = tokenizer(cleaned_input, return_tensors="pt", max_length=1024, truncation=True)
|