Spaces:

vlasdadsda
/

chatx

Sleeping

App Files Files Community

vlasdadsda commited on Dec 23, 2024

Commit

dcb54ac

verified ·

1 Parent(s): 4fb8f72

Upload web_engine.py

Browse files

Files changed (1) hide show

web_engine.py +51 -0

web_engine.py ADDED Viewed

	@@ -0,0 +1,51 @@

+import requests
+from bs4 import BeautifulSoup
+from urllib.parse import urlparse, parse_qs
+def search_info(prompt):
+    # Замените пробелы на '+', чтобы использовать в URL
+    query = prompt.replace(' ', '+')
+    url = f"https://www.google.com/search?q={query}"
+    # Выполняем запрос
+    response = requests.get(url)
+    soup = BeautifulSoup(response.text, 'html.parser')
+    # Находим ссылки на сайты
+    links = []
+    for item in soup.find_all('h3'):
+        parent = item.find_parent('a')
+        if parent and 'href' in parent.attrs:
+            # Извлекаем фактический URL
+            link = parent['href']
+            parsed_url = urlparse(link)
+            if parsed_url.path == '/url':
+                # Получаем значение параметра 'q'
+                query_params = parse_qs(parsed_url.query)
+                if 'q' in query_params:
+                    links.append(query_params['q'][0])
+    return links
+def get_page_text(url):
+    # Выполняем запрос к странице и извлекаем текст
+    response = requests.get(url)
+    soup = BeautifulSoup(response.text, 'html.parser')
+    # Извлекаем текст из тега <body>
+    body = soup.find('body')
+    if body:
+        return body.get_text(separator='\n', strip=True)
+    return "Текст не найден"
+def main():
+    prompt = input("Введите запрос для поиска: ")  # Запрашиваем у пользователя ввод
+    results = search_info(prompt)
+    for link in results:
+        print(f"Ссылка: {link}")
+        text = get_page_text(link)
+        print(f"Текст: {text}\n")  # Выводим полный текст страницы
+if __name__ == "__main__":
+    main()