albhu commited on
Commit
7f98a14
·
verified ·
1 Parent(s): f690e4f

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +8 -1
app.py CHANGED
@@ -2,6 +2,7 @@ import streamlit as st
2
  import pdfplumber
3
  import docx
4
  from transformers import AutoTokenizer, AutoModelForCausalLM
 
5
 
6
  st.title("JAI")
7
 
@@ -17,6 +18,12 @@ if st.checkbox("Korábbi Beszélgetések Törlése"):
17
  tokenizer = AutoTokenizer.from_pretrained("pile-of-law/legalbert-large-1.7M-2")
18
  model = AutoModelForCausalLM.from_pretrained("openai-community/gpt2", trust_remote_code=True)
19
 
 
 
 
 
 
 
20
  # Dokumentumfeldolgozó függvény
21
  def process_document(document_file):
22
  document_text = ""
@@ -45,7 +52,7 @@ def process_document(document_file):
45
  # Válaszgeneráló függvény
46
  def generate_response(input_text):
47
  # Bemeneti szöveg tisztítása
48
- cleaned_input = input_text.strip()
49
 
50
  # Tokenizálás
51
  inputs = tokenizer(cleaned_input, return_tensors="pt", max_length=1024, truncation=True)
 
2
  import pdfplumber
3
  import docx
4
  from transformers import AutoTokenizer, AutoModelForCausalLM
5
+ import string
6
 
7
  st.title("JAI")
8
 
 
18
  tokenizer = AutoTokenizer.from_pretrained("pile-of-law/legalbert-large-1.7M-2")
19
  model = AutoModelForCausalLM.from_pretrained("openai-community/gpt2", trust_remote_code=True)
20
 
21
+ # Karaktertisztító függvény
22
+ def clean_text(text):
23
+ printable = set(string.printable)
24
+ cleaned_text = ''.join(filter(lambda x: x in printable, text))
25
+ return cleaned_text
26
+
27
  # Dokumentumfeldolgozó függvény
28
  def process_document(document_file):
29
  document_text = ""
 
52
  # Válaszgeneráló függvény
53
  def generate_response(input_text):
54
  # Bemeneti szöveg tisztítása
55
+ cleaned_input = clean_text(input_text.strip())
56
 
57
  # Tokenizálás
58
  inputs = tokenizer(cleaned_input, return_tensors="pt", max_length=1024, truncation=True)