Spaces:

vlasdadsda
/

chatx

Sleeping

App Files Files Community

chatx / web_engine.py

vlasdadsda

Upload web_engine.py

dcb54ac verified 3 months ago

raw

history blame

1.92 kB

	import requests
	from bs4 import BeautifulSoup
	from urllib.parse import urlparse, parse_qs

	def search_info(prompt):
	# Замените пробелы на '+', чтобы использовать в URL
	query = prompt.replace(' ', '+')
	url = f"https://www.google.com/search?q={query}"

	# Выполняем запрос
	response = requests.get(url)
	soup = BeautifulSoup(response.text, 'html.parser')

	# Находим ссылки на сайты
	links = []
	for item in soup.find_all('h3'):
	parent = item.find_parent('a')
	if parent and 'href' in parent.attrs:
	# Извлекаем фактический URL
	link = parent['href']
	parsed_url = urlparse(link)
	if parsed_url.path == '/url':
	# Получаем значение параметра 'q'
	query_params = parse_qs(parsed_url.query)
	if 'q' in query_params:
	links.append(query_params['q'][0])

	return links

	def get_page_text(url):
	# Выполняем запрос к странице и извлекаем текст
	response = requests.get(url)
	soup = BeautifulSoup(response.text, 'html.parser')

	# Извлекаем текст из тега <body>
	body = soup.find('body')
	if body:
	return body.get_text(separator='\n', strip=True)
	return "Текст не найден"

	def main():
	prompt = input("Введите запрос для поиска: ") # Запрашиваем у пользователя ввод
	results = search_info(prompt)

	for link in results:
	print(f"Ссылка: {link}")
	text = get_page_text(link)
	print(f"Текст: {text}\n") # Выводим полный текст страницы

	if __name__ == "__main__":
	main()