Spaces:

JavierGon12
/

retrAIced

Runtime error

App Files Files Community

retrAIced / pages /Text Classification.py

JavierGon12

Remove unnecessary libraries and clean code a bit

cd03817 almost 2 years ago

raw

history blame

6.35 kB

	import re
	from transformers import DonutProcessor, VisionEncoderDecoderModel
	import torch
	import streamlit as st
	from PIL import Image
	import PyPDF2
	from pypdf.errors import PdfReadError
	from pypdf import PdfReader
	import pypdfium2 as pdfium

	document = st.file_uploader(label="Upload the document you want to explore",type=["png",'jpg', "jpeg","pdf"])


	model_option = st.selectbox("Select the output of the model:",["Classification","Extract Info"])
	if model_option == "Classification":
	processor = DonutProcessor.from_pretrained("naver-clova-ix/donut-base-finetuned-rvlcdip")
	model = VisionEncoderDecoderModel.from_pretrained("naver-clova-ix/donut-base-finetuned-rvlcdip")

	device = "cpu"
	model.to(device)
	# load document image
	if document == None:
	st.write("Please upload the document in the box above")
	else:
	try:
	PdfReader(document)
	pdf = pdfium.PdfDocument(document)
	page = pdf.get_page(0)
	pil_image = page.render(scale = 300/72).to_pil()

	task_prompt = "<s_rvlcdip>"
	decoder_input_ids = processor.tokenizer(task_prompt, add_special_tokens=False, return_tensors="pt").input_ids

	pixel_values = processor(pil_image, return_tensors="pt").pixel_values

	outputs = model.generate(
	pixel_values.to(device),
	decoder_input_ids=decoder_input_ids.to(device),
	max_length=model.decoder.config.max_position_embeddings,
	pad_token_id=processor.tokenizer.pad_token_id,
	eos_token_id=processor.tokenizer.eos_token_id,
	use_cache=True,
	bad_words_ids=[[processor.tokenizer.unk_token_id]],
	return_dict_in_generate=True,
	)

	sequence = processor.batch_decode(outputs.sequences)[0]
	sequence = sequence.replace(processor.tokenizer.eos_token, "").replace(processor.tokenizer.pad_token, "")
	sequence = re.sub(r"<.*?>", "", sequence, count=1).strip() # remove first task start token
	st.image(pil_image,"Document uploaded")
	st.write(processor.token2json(sequence))

	except PdfReadError:
	document = Image.open(document)
	task_prompt = "<s_rvlcdip>"
	decoder_input_ids = processor.tokenizer(task_prompt, add_special_tokens=False, return_tensors="pt").input_ids

	pixel_values = processor(document, return_tensors="pt").pixel_values

	outputs = model.generate(
	pixel_values.to(device),
	decoder_input_ids=decoder_input_ids.to(device),
	max_length=model.decoder.config.max_position_embeddings,
	pad_token_id=processor.tokenizer.pad_token_id,
	eos_token_id=processor.tokenizer.eos_token_id,
	use_cache=True,
	bad_words_ids=[[processor.tokenizer.unk_token_id]],
	return_dict_in_generate=True,
	)

	sequence = processor.batch_decode(outputs.sequences)[0]
	sequence = sequence.replace(processor.tokenizer.eos_token, "").replace(processor.tokenizer.pad_token, "")
	sequence = re.sub(r"<.*?>", "", sequence, count=1).strip() # remove first task start token
	st.image(document,"Document uploaded")
	st.write(processor.token2json(sequence))


	elif model_option == "Extract Info":
	processor = DonutProcessor.from_pretrained("naver-clova-ix/donut-base-finetuned-cord-v2")
	model = VisionEncoderDecoderModel.from_pretrained("naver-clova-ix/donut-base-finetuned-cord-v2")

	device = "cpu"
	model.to(device)
	# load document image
	if document == None:
	st.write("Please upload the document in the box above")
	else:
	try:
	PdfReader(document)
	pdf = pdfium.PdfDocument(document)
	page = pdf.get_page(0)
	pil_image = page.render(scale = 300/72).to_pil()

	task_prompt = "<s_cord-v2>"
	decoder_input_ids = processor.tokenizer(task_prompt, add_special_tokens=False, return_tensors="pt").input_ids

	pixel_values = processor(pil_image, return_tensors="pt").pixel_values

	outputs = model.generate(
	pixel_values.to(device),
	decoder_input_ids=decoder_input_ids.to(device),
	max_length=model.decoder.config.max_position_embeddings,
	pad_token_id=processor.tokenizer.pad_token_id,
	eos_token_id=processor.tokenizer.eos_token_id,
	use_cache=True,
	bad_words_ids=[[processor.tokenizer.unk_token_id]],
	return_dict_in_generate=True,
	)

	sequence = processor.batch_decode(outputs.sequences)[0]
	sequence = sequence.replace(processor.tokenizer.eos_token, "").replace(processor.tokenizer.pad_token, "")
	sequence = re.sub(r"<.*?>", "", sequence, count=1).strip() # remove first task start token
	st.image(pil_image,"Document uploaded")
	st.write(processor.token2json(sequence))

	except PdfReadError:
	document = Image.open(document)
	task_prompt = "<s_cord-v2>"
	decoder_input_ids = processor.tokenizer(task_prompt, add_special_tokens=False, return_tensors="pt").input_ids

	pixel_values = processor(document, return_tensors="pt").pixel_values

	outputs = model.generate(
	pixel_values.to(device),
	decoder_input_ids=decoder_input_ids.to(device),
	max_length=model.decoder.config.max_position_embeddings,
	pad_token_id=processor.tokenizer.pad_token_id,
	eos_token_id=processor.tokenizer.eos_token_id,
	use_cache=True,
	bad_words_ids=[[processor.tokenizer.unk_token_id]],
	return_dict_in_generate=True,
	)

	sequence = processor.batch_decode(outputs.sequences)[0]
	sequence = sequence.replace(processor.tokenizer.eos_token, "").replace(processor.tokenizer.pad_token, "")
	sequence = re.sub(r"<.*?>", "", sequence, count=1).strip() # remove first task start token
	st.image(document,"Document uploaded")
	st.write(processor.token2json(sequence))