Spaces:

wavesoumen
/

tryAI

Sleeping

App Files Files Community

tryAI / app.py

wavesoumen

Update app.py

ae83552 verified 10 months ago

raw

history blame contribute delete

2.4 kB

	import streamlit as st
	import torch
	import requests
	from PIL import Image
	from transformers import BlipProcessor, BlipForConditionalGeneration
	from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
	import nltk

	nltk.download('punkt')

	@st.cache_resource
	def load_models():
	processor = BlipProcessor.from_pretrained("Salesforce/blip-image-captioning-base")
	model = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-base")
	tokenizer = AutoTokenizer.from_pretrained("fabiochiu/t5-base-tag-generation")
	model2 = AutoModelForSeq2SeqLM.from_pretrained("fabiochiu/t5-base-tag-generation")
	return processor, model, tokenizer, model2

	processor, model, tokenizer, model2 = load_models()

	def get_image_caption_and_tags(img_url):
	raw_image = Image.open(requests.get(img_url, stream=True).raw).convert('RGB')

	# conditional image captioning
	alltexts = "a photography of"
	inputs = processor(raw_image, alltexts, return_tensors="pt")
	out = model.generate(**inputs)
	conditional_caption = processor.decode(out[0], skip_special_tokens=True)

	# unconditional image captioning
	inputs = processor(raw_image, return_tensors="pt")
	out = model.generate(**inputs)
	unconditional_caption = processor.decode(out[0], skip_special_tokens=True)

	inputs = tokenizer([alltexts], max_length=512, truncation=True, return_tensors="pt")
	output = model2.generate(**inputs, num_beams=8, do_sample=True, min_length=10, max_length=64)
	decoded_output = tokenizer.batch_decode(output, skip_special_tokens=True)[0]
	tags = list(set(decoded_output.strip().split(", ")))

	return raw_image, conditional_caption, unconditional_caption, tags

	st.title('Image Captioning and Tag Generation')

	img_url = st.text_input("Enter Image URL:")

	if st.button("Generate Captions and Tags"):
	with st.spinner('Processing...'):
	try:
	image, cond_caption, uncond_caption, tags = get_image_caption_and_tags(img_url)
	st.image(image, caption='Input Image', use_column_width=True)
	st.subheader("Conditional Caption:")
	st.write(cond_caption)
	st.subheader("Unconditional Caption:")
	st.write(uncond_caption)
	st.subheader("Generated Tags:")
	st.write(", ".join(tags))
	except Exception as e:
	st.error(f"An error occurred: {e}")