Spaces:

mgokg
/

gemini-2.0-flash-exp

Running

App Files Files Community

mgokg commited on Dec 5, 2024

Commit

740258d

verified ·

1 Parent(s): 74c6a6a

Update app.py

Browse files

Files changed (1) hide show

app.py +25 -10

app.py CHANGED Viewed

@@ -12,14 +12,28 @@ import os
 api_key = os.environ.get('groq')
 read_key = os.environ.get('HF_TOKEN', None)
 def parse_links_and_content(ort):
     base_url = "https://vereine-in-deutschland.net"
-    all_links = []
-    # Konstruiere die vollständige URL
-    initial_url = f"{base_url}/vereine/Bayern/{ort}/"
     try:
-        # Senden der Anfrage an die initiale URL
         response = requests.get(initial_url)
         response.raise_for_status()  # Überprüfen, ob die Anfrage erfolgreich war
@@ -32,15 +46,14 @@ def parse_links_and_content(ort):
         if link_element and 'href' in link_element.attrs:
             href = link_element['href']
             # Extrahiere die letzten beiden Zeichen der URL
-            last_two_chars = href[-2:].strip()
             # Konvertiere die letzten beiden Zeichen in einen Integer
             last_two_chars_int = int(last_two_chars)
         else:
             last_two_chars_int = 1  # Falls die letzte Seite nicht gefunden wird, nimm an, dass es nur eine Seite gibt
         # Schleife durch alle Seiten und sammle Links
-        for page_number in range(1, 14):
             page_url = f"{base_url}/vereine/Bayern/{ort}/p/{page_number}"
             response = requests.get(page_url)
             response.raise_for_status()
@@ -48,10 +61,11 @@ def parse_links_and_content(ort):
             target_div = soup.select_one('div.row-cols-1:nth-child(4)')
             if target_div:
-                #links = [urljoin(base_url, a['href']) for a in target_div.find_all('a', href=True)]
                 texts = [a.text for a in target_div.find_all('a', href=True)]
                 #print(texts)
-                all_links.extend(texts)
             else:
                 print(f"Target div not found on page {page_number}")
@@ -59,7 +73,8 @@ def parse_links_and_content(ort):
         return str(e), []
     all_links = all_links[0::2]
-    return all_links
 def scrape_links(links):
     links=links

 api_key = os.environ.get('groq')
 read_key = os.environ.get('HF_TOKEN', None)
+# Use Llama 3 70B powered by Groq for answering
+def ask_llm(prompt):
+    try:
+        completion = client.chat.completions.create(
+            model="llama3-70b-8192",
+            messages=[
+                {"role": "system", "content": "You are a helpful assistant."},
+                {"role": "user", "content": f"{prompt}. \n instruction: antworte kurz und knapp. antworte immer auf deutsch"}
+            ],
+        )
+        return completion.choices[0].message.content
+    except Exception as e:
+        return f"Error in response generation: {str(e)}"
 def parse_links_and_content(ort):
     base_url = "https://vereine-in-deutschland.net"
+    all_links = []
+    all_links_text = []
+    initial_url = f"{base_url}/vereine/Bayern/{ort}"
     try:
         response = requests.get(initial_url)
         response.raise_for_status()  # Überprüfen, ob die Anfrage erfolgreich war
         if link_element and 'href' in link_element.attrs:
             href = link_element['href']
             # Extrahiere die letzten beiden Zeichen der URL
+            last_two_chars = href[-2:].strip()
             # Konvertiere die letzten beiden Zeichen in einen Integer
             last_two_chars_int = int(last_two_chars)
         else:
             last_two_chars_int = 1  # Falls die letzte Seite nicht gefunden wird, nimm an, dass es nur eine Seite gibt
         # Schleife durch alle Seiten und sammle Links
+        for page_number in range(1, last_two_chars_int +1):
             page_url = f"{base_url}/vereine/Bayern/{ort}/p/{page_number}"
             response = requests.get(page_url)
             response.raise_for_status()
             target_div = soup.select_one('div.row-cols-1:nth-child(4)')
             if target_div:
+                links = [urljoin(base_url, a['href']) for a in target_div.find_all('a', href=True)]
                 texts = [a.text for a in target_div.find_all('a', href=True)]
                 #print(texts)
+                all_links.extend(links)
+                all_links_text.extend(texts)
             else:
                 print(f"Target div not found on page {page_number}")
         return str(e), []
     all_links = all_links[0::2]
+    all_links_text = all_links_text[0::2]
+    return all_links_text
 def scrape_links(links):
     links=links