vlasdadsda commited on
Commit
dcb54ac
·
verified ·
1 Parent(s): 4fb8f72

Upload web_engine.py

Browse files
Files changed (1) hide show
  1. web_engine.py +51 -0
web_engine.py ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ import requests
2
+ from bs4 import BeautifulSoup
3
+ from urllib.parse import urlparse, parse_qs
4
+
5
+ def search_info(prompt):
6
+ # Замените пробелы на '+', чтобы использовать в URL
7
+ query = prompt.replace(' ', '+')
8
+ url = f"https://www.google.com/search?q={query}"
9
+
10
+ # Выполняем запрос
11
+ response = requests.get(url)
12
+ soup = BeautifulSoup(response.text, 'html.parser')
13
+
14
+ # Находим ссылки на сайты
15
+ links = []
16
+ for item in soup.find_all('h3'):
17
+ parent = item.find_parent('a')
18
+ if parent and 'href' in parent.attrs:
19
+ # Извлекаем фактический URL
20
+ link = parent['href']
21
+ parsed_url = urlparse(link)
22
+ if parsed_url.path == '/url':
23
+ # Получаем значение параметра 'q'
24
+ query_params = parse_qs(parsed_url.query)
25
+ if 'q' in query_params:
26
+ links.append(query_params['q'][0])
27
+
28
+ return links
29
+
30
+ def get_page_text(url):
31
+ # Выполняем запрос к странице и извлекаем текст
32
+ response = requests.get(url)
33
+ soup = BeautifulSoup(response.text, 'html.parser')
34
+
35
+ # Извлекаем текст из тега <body>
36
+ body = soup.find('body')
37
+ if body:
38
+ return body.get_text(separator='\n', strip=True)
39
+ return "Текст не найден"
40
+
41
+ def main():
42
+ prompt = input("Введите запрос для поиска: ") # Запрашиваем у пользователя ввод
43
+ results = search_info(prompt)
44
+
45
+ for link in results:
46
+ print(f"Ссылка: {link}")
47
+ text = get_page_text(link)
48
+ print(f"Текст: {text}\n") # Выводим полный текст страницы
49
+
50
+ if __name__ == "__main__":
51
+ main()