from transformers import AutoModelForCausalLM, AutoTokenizer
import gradio as gr

# Загрузка модели и токенизатора
model_name = "Qwen/Qwen2.5-VL-72B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    load_in_8bit=True,  # Квантизация для экономии памяти
    device_map="auto"   # Автоматическое распределение между CPU и GPU
)

# Функция для генерации текста
def generate_response(input_text):
    inputs = tokenizer(input_text, return_tensors="pt").to("cuda")
    outputs = model.generate(**inputs, max_length=100)
    response = tokenizer.decode(outputs[0], skip_special_tokens=True)
    return response

# Создание интерфейса Gradio
with gr.Blocks() as demo:
    gr.Markdown("# Qwen2.5-VL-72B-Instruct Demo")
    input_text = gr.Textbox(label="Введите ваш запрос", lines=3)
    output_text = gr.Textbox(label="Ответ модели", lines=5)
    submit_button = gr.Button("Отправить")
    submit_button.click(generate_response, inputs=input_text, outputs=output_text)

# Запуск интерфейса
demo.launch()