Spaces:

histlearn
/

rule-based-captioning

Sleeping

App Files Files Community

rule-based-captioning / app.py

histlearn

Update app.py

f7eab10 verified over 1 year ago

raw

history blame contribute delete

7.88 kB

	import os
	import gradio as gr
	from transformers import AutoProcessor, AutoModelForCausalLM
	from PIL import Image
	import torch
	from gtts import gTTS
	import spacy
	import requests
	import nltk.tree
	import re

	# Baixar o modelo de português do spaCy
	os.system("python -m spacy download pt_core_news_sm")

	# Carregar o modelo de português do spaCy
	nlp = spacy.load("pt_core_news_sm")

	# Chave para o LX-Parser
	key = "aac7f02d6bd21703b753e25646d6426d"

	# Funções de manipulação gramatical
	def invert_adj_n(doc, tags):
	frase = []
	already = False
	for i in range(len(doc)):
	if already:
	already = False
	continue
	if doc[i].tag_ != "PUNCT":
	if tags[i] == "A":
	if i + 1 < len(tags) and tags[i + 1] == "N":
	frase.append(doc[i + 1].text)
	frase.append(doc[i].text)
	already = True
	else:
	frase.append(doc[i].text)
	else:
	frase.append(doc[i].text)
	else:
	frase.append(doc[i].text)
	return frase

	def adjust_adj(doc, tags):
	frase = []
	for i in range(len(doc)):
	frase.append(doc[i].text)
	if tags[i] == "A":
	if i + 1 < len(tags) and tags[i + 1] == "A":
	frase.append("e")
	return frase

	def adjust_art(doc, tags):
	frase = []
	already = False
	for i in range(len(doc)):
	if already:
	already = False
	continue
	text = doc[i].text
	if tags[i] == "ART" and text.lower() == "a":
	if i + 1 < len(doc):
	gender = doc[i + 1].morph.get("Gender")
	number = doc[i + 1].morph.get("Number")
	if gender and number:
	if gender[0] == "Masc" and number[0] == "Sing":
	frase.append("um")
	elif gender[0] == "Fem" and number[0] == "Sing":
	frase.append("uma")
	elif gender[0] == "Masc" and number[0] != "Sing":
	frase.append("os")
	else:
	frase.append("as")
	else:
	frase.append(text)
	else:
	frase.append(text)
	else:
	frase.append(text)
	return frase

	def create_sentence(doc, tags, frase):
	tmp = frase
	for i in range(len(doc)):
	text = doc[i].text
	if doc[i].is_sent_start:
	tmp[i] = tmp[i].capitalize()
	if doc[i].tag_ == "PUNCT":
	tmp[i - 1] += text
	return tmp

	def get_productions(texto):
	format = 'parentheses'
	url = "https://portulanclarin.net/workbench/lx-parser/api/"
	request_data = {
	'method': 'parse',
	'jsonrpc': '2.0',
	'id': 0,
	'params': {
	'text': texto,
	'format': format,
	'key': key,
	},
	}
	request = requests.post(url, json=request_data)
	response_data = request.json()
	if "error" in response_data:
	print("Error:", response_data["error"])
	return []
	else:
	result = response_data["result"]
	productions = []
	tree = nltk.tree.Tree.fromstring(result)
	for tag in tree.productions():
	if len(re.findall(r"'.*'", str(tag))) > 0:
	productions.append(str(tag))
	return productions

	def get_tags(productions):
	tags = []
	for item in productions:
	if isinstance(item, str):
	tags.append(item[:item.find(' ->')])
	else:
	tags.append(item)
	for item in tags:
	if "'" in item:
	tags.remove(item)
	return tags

	def reordenar_sentenca(sentenca):
	if not sentenca.strip():
	return sentenca, []
	sentenca = sentenca.lower()
	sentence = get_productions(sentenca)
	tags = get_tags(sentence)
	doc = nlp(sentenca)
	if not tags:
	return sentenca.strip(), []
	if tags[0] != "ART":
	sentenca = "A " + sentenca.strip()
	sentence = get_productions(sentenca)
	tags = get_tags(sentence)
	doc = nlp(sentenca)
	if not sentence:
	return sentenca.strip(), []
	aux = []
	if len(tags) > 2 and tags[1] == "N" and tags[2] == "N":
	aux = sentenca.split()
	tmp = aux[1]
	aux[1] = aux[2]
	aux.insert(2, "de")
	aux[3] = tmp
	sentenca = " ".join(aux)
	sentence = get_productions(sentenca)
	tags = get_tags(sentence)
	doc = nlp(sentenca)
	frase = []
	already = False
	person = 3
	tmp_doc = []
	for token in doc:
	tmp_doc.append(token)
	frase = invert_adj_n(tmp_doc, tags)
	nova_sentenca = ' '.join(frase)
	productions = get_productions(nova_sentenca)
	tags = get_tags(productions)
	doc = nlp(nova_sentenca)
	while nova_sentenca != sentenca:
	frase = invert_adj_n(doc, tags)
	sentenca = nova_sentenca
	nova_sentenca = ' '.join(frase)
	productions = get_productions(nova_sentenca)
	tags = get_tags(productions)
	doc = nlp(nova_sentenca)
	frase = adjust_adj(doc, tags)
	nova_sentenca = ' '.join(frase)
	productions = get_productions(nova_sentenca)
	tags = get_tags(productions)
	doc = nlp(nova_sentenca)
	while nova_sentenca != sentenca:
	frase = adjust_adj(doc, tags)
	sentenca = nova_sentenca
	nova_sentenca = ' '.join(frase)
	productions = get_productions(nova_sentenca)
	tags = get_tags(productions)
	doc = nlp(nova_sentenca)
	frase = adjust_art(doc, tags)
	sentenca = ' '.join(frase)
	productions = get_productions(sentenca)
	tags = get_tags(productions)
	doc = nlp(sentenca)
	frase = create_sentence(doc, tags, frase)
	sentenca_normalizada = ""
	for i in range(len(frase)):
	sentenca_normalizada += frase[i] + " "
	return sentenca_normalizada.strip(), tags

	# Carregar os modelos
	processor = AutoProcessor.from_pretrained("histlearn/microsoft-git-portuguese-neuro-simbolic")
	model = AutoModelForCausalLM.from_pretrained("histlearn/microsoft-git-portuguese-neuro-simbolic")

	# Configurar o dispositivo (GPU ou CPU)
	device = "cuda" if torch.cuda.is_available() else "cpu"
	model.to(device)

	# Funções auxiliares
	def prepare_image(image_path):
	image = Image.open(image_path).convert("RGB")
	inputs = processor(images=image, return_tensors="pt").to(device)
	return image, inputs.pixel_values

	def generate_caption(pixel_values):
	model.eval()
	with torch.no_grad():
	generated_ids = model.generate(
	pixel_values=pixel_values,
	max_length=50,
	num_beams=4,
	early_stopping=True,
	no_repeat_ngram_size=2
	)
	return processor.batch_decode(generated_ids, skip_special_tokens=True)[0]

	def text_to_speech_gtts(text, lang='pt'):
	tts = gTTS(text=text, lang=lang)
	tts.save("output.mp3")
	return "output.mp3"

	# Função principal para processar a imagem e gerar a voz
	def process_image(image):
	_, pixel_values = prepare_image(image)
	caption_pt = generate_caption(pixel_values)
	caption_pt, tags = reordenar_sentenca(caption_pt)
	audio_file = text_to_speech_gtts(caption_pt)
	tags_text = " \| ".join(tags)
	return caption_pt, tags_text, audio_file

	# Caminhos para as imagens de exemplo
	example_image_paths = [
	"./example2.jpeg"
	]

	# Interface Gradio
	iface = gr.Interface(
	fn=process_image,
	inputs=gr.Image(type="filepath"),
	outputs=[gr.Textbox(label="Caption"), gr.Textbox(label="Morphological Analysis"), gr.Audio(type="filepath")],
	examples=example_image_paths,
	title="Image to Voice",
	description="Gera uma descrição em português e a converte em voz a partir de uma imagem."
	)

	# Executar a interface
	if __name__ == "__main__":
	iface.launch()