Spaces:
Sleeping
Sleeping
import requests | |
from bs4 import BeautifulSoup | |
from urllib.parse import urlparse, parse_qs | |
def search_info(prompt): | |
# Замените пробелы на '+', чтобы использовать в URL | |
query = prompt.replace(' ', '+') | |
url = f"https://www.google.com/search?q={query}" | |
# Выполняем запрос | |
response = requests.get(url) | |
soup = BeautifulSoup(response.text, 'html.parser') | |
# Находим ссылки на сайты | |
links = [] | |
for item in soup.find_all('h3'): | |
parent = item.find_parent('a') | |
if parent and 'href' in parent.attrs: | |
# Извлекаем фактический URL | |
link = parent['href'] | |
parsed_url = urlparse(link) | |
if parsed_url.path == '/url': | |
# Получаем значение параметра 'q' | |
query_params = parse_qs(parsed_url.query) | |
if 'q' in query_params: | |
links.append(query_params['q'][0]) | |
return links | |
def get_page_text(url): | |
# Выполняем запрос к странице и извлекаем текст | |
response = requests.get(url) | |
soup = BeautifulSoup(response.text, 'html.parser') | |
# Извлекаем текст из тега <body> | |
body = soup.find('body') | |
if body: | |
return body.get_text(separator='\n', strip=True) | |
return "Текст не найден" | |
def main(): | |
prompt = input("Введите запрос для поиска: ") # Запрашиваем у пользователя ввод | |
results = search_info(prompt) | |
for link in results: | |
print(f"Ссылка: {link}") | |
text = get_page_text(link) | |
print(f"Текст: {text}\n") # Выводим полный текст страницы | |
if __name__ == "__main__": | |
main() | |