from transformers import AutoModelForCausalLM, AutoTokenizer import gradio as gr # Загрузка модели и токенизатора model_name = "Qwen/Qwen2.5-VL-72B-Instruct" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForCausalLM.from_pretrained( model_name, load_in_8bit=True, # Квантизация для экономии памяти device_map="auto" # Автоматическое распределение между CPU и GPU ) # Функция для генерации текста def generate_response(input_text): inputs = tokenizer(input_text, return_tensors="pt").to("cuda") outputs = model.generate(**inputs, max_length=100) response = tokenizer.decode(outputs[0], skip_special_tokens=True) return response # Создание интерфейса Gradio with gr.Blocks() as demo: gr.Markdown("# Qwen2.5-VL-72B-Instruct Demo") input_text = gr.Textbox(label="Введите ваш запрос", lines=3) output_text = gr.Textbox(label="Ответ модели", lines=5) submit_button = gr.Button("Отправить") submit_button.click(generate_response, inputs=input_text, outputs=output_text) # Запуск интерфейса demo.launch()