Spaces:

albhu
/

legalgeek

Runtime error

App Files Files Community

albhu commited on Apr 25, 2024

Commit

748baf0

verified ·

1 Parent(s): 56ec0dc

Update app.py

Browse files

Files changed (1) hide show

app.py +57 -68

app.py CHANGED Viewed

@@ -1,82 +1,71 @@
 import streamlit as st
-from transformers import AutoTokenizer, AutoModel, AutoModelForCausalLM
-st.title("Jogi Dokumentumok AI Tokenizálása és Válaszgenerálás")
-# Információs szekció
-st.write(
-    """
-    Ez az alkalmazás tokenizálja a megadott jogi dokumentumot az általad választott modell segítségével,
-    majd generál válaszokat a megadott modell használatával.
-    """
-)
-# Tokenizáló modell választása
-tokenizer_name = st.selectbox("Tokenizáló Modell", ["pile-of-law/legalbert-large-1.7M-2", "bert-base-uncased", "bert-base-multilingual-cased"])
-tokenizer = AutoTokenizer.from_pretrained(tokenizer_name)
-# Válaszgeneráló modell választása
-generator_name = st.selectbox("Válaszgeneráló Modell", ["microsoft/phi-2", "gpt2", "gpt2-medium"])
 model = AutoModelForCausalLM.from_pretrained(generator_name, trust_remote_code=True)
 # Input mező a jogi dokumentumhoz
 document_text = st.text_area("Jogi Dokumentum", "")
-# Dokumentum típusának megadása
-document_type = st.text_input("Dokumentum Típusa", "")
-# Szövegszegmentáció
-segmentation_type = st.selectbox("Szövegszegmentáció", ["Címek", "Bekezdések", "Fejezetek"])
-# Generálási paraméterek testreszabása
-max_length = st.slider("Maximális Válasz Hossz", min_value=10, max_value=200, value=50, step=10)
-num_return_sequences = st.slider("Válaszok Száma", min_value=1, max_value=5, value=3, step=1)
-temperature = st.slider("Hőmérséklet", min_value=0.1, max_value=2.0, value=0.7, step=0.1)
-# Tokenizálás és válaszgenerálás gomb
-if st.button("Tokenizálás és Válaszgenerálás"):
-    # Tokenizálás
-    tokenized_document = tokenizer(document_text, return_tensors="pt")
-    with open("tokenized_document.txt", "w", encoding="utf-8") as file:
-        file.write(str(tokenized_document))
-    st.write("A tokenizált dokumentum sikeresen el lett mentve.")
-    # Szövegszegmentáció
-    if segmentation_type == "Címek":
-        segments = extract_titles(document_text)
-    elif segmentation_type == "Bekezdések":
-        segments = extract_paragraphs(document_text)
-    elif segmentation_type == "Fejezetek":
-        segments = extract_chapters(document_text)
-    # Válasz generálása
-    for segment in segments:
-        input_ids = tokenizer.encode(segment, return_tensors="pt")
-        output = model.generate(input_ids, max_length=max_length, num_return_sequences=num_return_sequences, temperature=temperature)
-        st.subheader(f"{segment} - Generált Válaszok:")
-        for i, generated_sequence in enumerate(output):
-            response_text = tokenizer.decode(generated_sequence, skip_special_tokens=True)
-            st.write(f"Válasz {i+1}: {response_text}")
-            if hasattr(model, "get_output_embeddings"):
-                logits = model.get_output_embeddings()(generated_sequence)
-                probs = logits.softmax(dim=-1)
-                st.write("Valószínűségek:")
-                st.table(probs.tolist())
-            if st.button(f"Mentés Válasz {i+1}"):
-                file_name = st.text_input("Fájlnév:", f"generated_response_{i+1}.txt")
-                with open(file_name, "w", encoding="utf-8") as file:
-                    file.write(response_text)
-                st.write(f"A válasz {i+1} sikeresen el lett mentve fájlba.")
-    # Generált válaszok egyetlen fájlba mentése
-    if st.button("Mentés Összes Válasz"):
-        with open("all_generated_responses.txt", "w", encoding="utf-8") as file:
-            for segment in segments:
-                input_ids = tokenizer.encode(segment, return_tensors="pt")
-                output = model.generate(input_ids, max_length=max_length, num_return_sequences=num_return_sequences, temperature=temperature)
-                file.write(f"{segment}:\n")
-                for i, generated_sequence in enumerate(output):
-                    generated_text = tokenizer.decode(generated_sequence, skip_special_tokens=True)
-                    file.write(f"Válasz {i+1}:\n")
-                    file.write(generated_text + "\n\n")
-        st.write("Az összes válasz sikeresen el lett mentve egy fájlba.")

 import streamlit as st
+from transformers import AutoTokenizer, AutoModelForCausalLM
+st.title("Jogi Dokumentumok AI Válaszgenerálás")
+# Egyedi session azonosító létrehozása
+session_id = st.session_state.session_id if "session_id" in st.session_state else 0
+# Előző beszélgetések tárolása session state-ben
+if "previous_conversations" not in st.session_state:
+    st.session_state.previous_conversations = []
+# Korábbi beszélgetések törlése
+if st.button("Korábbi Beszélgetések Törlése"):
+    st.session_state.previous_conversations = []
+# Korábbi beszélgetések mentése és betöltése
+if st.checkbox("Korábbi Beszélgetések Mentése"):
+    with open(f"previous_conversations_{session_id}.txt", "w") as file:
+        for conv in st.session_state.previous_conversations:
+            file.write(f"{conv}\n")
+    st.write("A korábbi beszélgetések sikeresen el lettek mentve.")
+if st.checkbox("Korábbi Beszélgetések Betöltése"):
+    previous_conversations_file = st.file_uploader("Válassz ki egy fájlt a korábbi beszélgetések betöltéséhez")
+    if previous_conversations_file is not None:
+        with previous_conversations_file as file:
+            for line in file:
+                st.session_state.previous_conversations.append(line.strip())
+        st.write("A korábbi beszélgetések sikeresen betöltve.")
+# Korábbi beszélgetések keresése
+search_term = st.text_input("Keresés a Korábbi Beszélgetések Között", "")
+if st.button("Keresés"):
+    search_results = [conv for conv in st.session_state.previous_conversations if search_term in conv]
+    if search_results:
+        st.subheader("Keresési Találatok:")
+        for result in search_results:
+            st.write(result)
+    else:
+        st.write("Nincs találat.")
+# Tokenizáló modell és válaszgeneráló modell választása
+tokenizer_name = st.selectbox("Tokenizáló Modell", ["bert-base-uncased", "bert-base-multilingual-cased"])
+generator_name = st.selectbox("Válaszgeneráló Modell", ["microsoft/phi-2", "gpt2"])
+tokenizer = AutoTokenizer.from_pretrained(tokenizer_name)
 model = AutoModelForCausalLM.from_pretrained(generator_name, trust_remote_code=True)
 # Input mező a jogi dokumentumhoz
 document_text = st.text_area("Jogi Dokumentum", "")
+# Előző beszélgetésekhez csatolható kontextus
+context = st.text_area("Korábbi Beszélgetéshez Tartozó Kontextus", "")
+# Válaszgenerálás
+if st.button("Generálj Választ"):
+    if context:
+        input_text = f"{context} {document_text}"
+    else:
+        input_text = document_text
+    # Model használata a válasz generálásához
+    response = generate_response(input_text, tokenizer, model)
+    # Válasz megjelenítése
+    st.subheader("Generált Válasz:")
+    st.write(response)
+    # Aktuális beszélgetés hozzáadása az előző beszélgetésekhez
+    st.session_state.previous_conversations.append({"session_id": session_id, "input_text": input_text, "response": response})