albhu commited on
Commit
71f7c83
·
verified ·
1 Parent(s): 19d6da7

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +3 -9
app.py CHANGED
@@ -2,7 +2,6 @@ import streamlit as st
2
  import pdfplumber
3
  import docx
4
  from transformers import AutoTokenizer, AutoModelForCausalLM
5
- import string
6
 
7
  st.title("JAI")
8
 
@@ -18,12 +17,6 @@ if st.checkbox("Korábbi Beszélgetések Törlése"):
18
  tokenizer = AutoTokenizer.from_pretrained("pile-of-law/legalbert-large-1.7M-2")
19
  model = AutoModelForCausalLM.from_pretrained("openai-community/gpt2", trust_remote_code=True)
20
 
21
- # Karaktertisztító függvény
22
- def clean_text(text):
23
- cleaned_text = ''.join(filter(lambda x: x in string.printable, text))
24
- return cleaned_text
25
-
26
-
27
  # Dokumentumfeldolgozó függvény
28
  def process_document(document_file):
29
  document_text = ""
@@ -52,7 +45,7 @@ def process_document(document_file):
52
  # Válaszgeneráló függvény
53
  def generate_response(input_text):
54
  # Bemeneti szöveg tisztítása
55
- cleaned_input = clean_text(input_text.strip())
56
 
57
  # Tokenizálás
58
  inputs = tokenizer(cleaned_input, return_tensors="pt", max_length=1024, truncation=True)
@@ -60,8 +53,9 @@ def generate_response(input_text):
60
  # Modell használata a válasz generálásához
61
  outputs = model(**inputs)
62
 
63
- # Válasz visszaadása
64
  response = tokenizer.decode(outputs.logits.argmax(dim=1)[0])
 
65
  return response
66
 
67
  # Dokumentum feltöltése drag and drop segítségével
 
2
  import pdfplumber
3
  import docx
4
  from transformers import AutoTokenizer, AutoModelForCausalLM
 
5
 
6
  st.title("JAI")
7
 
 
17
  tokenizer = AutoTokenizer.from_pretrained("pile-of-law/legalbert-large-1.7M-2")
18
  model = AutoModelForCausalLM.from_pretrained("openai-community/gpt2", trust_remote_code=True)
19
 
 
 
 
 
 
 
20
  # Dokumentumfeldolgozó függvény
21
  def process_document(document_file):
22
  document_text = ""
 
45
  # Válaszgeneráló függvény
46
  def generate_response(input_text):
47
  # Bemeneti szöveg tisztítása
48
+ cleaned_input = input_text.strip()
49
 
50
  # Tokenizálás
51
  inputs = tokenizer(cleaned_input, return_tensors="pt", max_length=1024, truncation=True)
 
53
  # Modell használata a válasz generálásához
54
  outputs = model(**inputs)
55
 
56
+ # Válasz dekódolása és megjelenítése
57
  response = tokenizer.decode(outputs.logits.argmax(dim=1)[0])
58
+ response = response.decode('utf-8', errors='replace')
59
  return response
60
 
61
  # Dokumentum feltöltése drag and drop segítségével