Spaces:

vlasdadsda
/

chatx

Sleeping

App Files Files Community

vlasdadsda commited on Jan 9

Commit

a007bfc

verified ·

1 Parent(s): f893731

Update web_engine.py

Browse files

Files changed (1) hide show

web_engine.py +68 -51

web_engine.py CHANGED Viewed

@@ -1,51 +1,68 @@
-import requests
-from bs4 import BeautifulSoup
-from urllib.parse import urlparse, parse_qs
-def search_info(prompt):
-    # Замените пробелы на '+', чтобы использовать в URL
-    query = prompt.replace(' ', '+')
-    url = f"https://www.google.com/search?q={query}"
-    # Выполняем запрос
-    response = requests.get(url)
-    soup = BeautifulSoup(response.text, 'html.parser')
-    # Находим ссылки на сайты
-    links = []
-    for item in soup.find_all('h3'):
-        parent = item.find_parent('a')
-        if parent and 'href' in parent.attrs:
-            # Извлекаем фактический URL
-            link = parent['href']
-            parsed_url = urlparse(link)
-            if parsed_url.path == '/url':
-                # Получаем значение параметра 'q'
-                query_params = parse_qs(parsed_url.query)
-                if 'q' in query_params:
-                    links.append(query_params['q'][0])
-    return links
-def get_page_text(url):
-    # Выполняем запрос к странице и извлекаем текст
-    response = requests.get(url)
-    soup = BeautifulSoup(response.text, 'html.parser')
-    # Извлекаем текст из тега <body>
-    body = soup.find('body')
-    if body:
-        return body.get_text(separator='\n', strip=True)
-    return "Текст не найден"
-def main():
-    prompt = input("Введите запрос для поиска: ")  # Запрашиваем у пользователя ввод
-    results = search_info(prompt)
-    for link in results:
-        print(f"Ссылка: {link}")
-        text = get_page_text(link)
-        print(f"Текст: {text}\n")  # Выводим полный текст страницы
-if __name__ == "__main__":
-    main()

+import aiohttp
+import asyncio
+from bs4 import BeautifulSoup
+from urllib.parse import urlparse, parse_qs
+# Асинхронный запрос к странице
+async def fetch(session, url):
+    try:
+        async with session.get(url, timeout=10) as response:
+            return await response.text()
+    except Exception as e:
+        return ""
+# Асинхронное получение текста страницы
+async def get_page_text(session, url):
+    html = await fetch(session, url)
+    if not html:
+        return "Текст не найден"
+    soup = BeautifulSoup(html, 'html.parser')
+    body = soup.find('body')
+    if body:
+        return body.get_text(separator='\n', strip=True)
+    return "Текст не найден"
+# Асинхронный поиск информации
+async def search_info(prompt):
+    query = prompt.replace(' ', '+')
+    search_url = f"https://www.google.com/search?q={query}"
+    async with aiohttp.ClientSession() as session:
+        html = await fetch(session, search_url)
+        if not html:
+            return []
+        soup = BeautifulSoup(html, 'html.parser')
+        links = []
+        for item in soup.find_all('h3'):
+            parent = item.find_parent('a')
+            if parent and 'href' in parent.attrs:
+                link = parent['href']
+                parsed_url = urlparse(link)
+                if parsed_url.path == '/url':
+                    query_params = parse_qs(parsed_url.query)
+                    if 'q' in query_params:
+                        links.append(query_params['q'][0])
+        return links
+# Основной асинхронный цикл
+async def main():
+    prompt = input("Введите запрос для поиска: ")
+    results = await search_info(prompt)
+    if not results:
+        print("Ничего не найдено.")
+        return
+    async with aiohttp.ClientSession() as session:
+        tasks = [get_page_text(session, link) for link in results[:5]]  # Ограничение до 5 ссылок для скорости
+        texts = await asyncio.gather(*tasks)
+        for link, text in zip(results, texts):
+            print(f"Ссылка: {link}")
+            print(f"Текст: {text}\n")
+# Запуск программы
+if __name__ == "__main__":
+    asyncio.run(main())