chatx / web_engine.py
vlasdadsda's picture
Upload web_engine.py
dcb54ac verified
raw
history blame
1.92 kB
import requests
from bs4 import BeautifulSoup
from urllib.parse import urlparse, parse_qs
def search_info(prompt):
# Замените пробелы на '+', чтобы использовать в URL
query = prompt.replace(' ', '+')
url = f"https://www.google.com/search?q={query}"
# Выполняем запрос
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
# Находим ссылки на сайты
links = []
for item in soup.find_all('h3'):
parent = item.find_parent('a')
if parent and 'href' in parent.attrs:
# Извлекаем фактический URL
link = parent['href']
parsed_url = urlparse(link)
if parsed_url.path == '/url':
# Получаем значение параметра 'q'
query_params = parse_qs(parsed_url.query)
if 'q' in query_params:
links.append(query_params['q'][0])
return links
def get_page_text(url):
# Выполняем запрос к странице и извлекаем текст
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
# Извлекаем текст из тега <body>
body = soup.find('body')
if body:
return body.get_text(separator='\n', strip=True)
return "Текст не найден"
def main():
prompt = input("Введите запрос для поиска: ") # Запрашиваем у пользователя ввод
results = search_info(prompt)
for link in results:
print(f"Ссылка: {link}")
text = get_page_text(link)
print(f"Текст: {text}\n") # Выводим полный текст страницы
if __name__ == "__main__":
main()