JJhooww
/

Fluxi_AI_Small_Vision

@@ -226,24 +226,24 @@ from qwen_vl_utils import process_vision_info
 # Carregar o modelo no(s) dispositivo(s) disponível(is)
 model = Qwen2VLForConditionalGeneration.from_pretrained(
-    "Qwen/Qwen2-VL-7B-Instruct", torch_dtype="auto", device_map="auto"
 )
 # Recomendamos habilitar o flash_attention_2 para melhor aceleração e economia de memória, especialmente em cenários com múltiplas imagens e vídeos.
 # model = Qwen2VLForConditionalGeneration.from_pretrained(
-#     "Qwen/Qwen2-VL-7B-Instruct",
 #     torch_dtype=torch.bfloat16,
 #     attn_implementation="flash_attention_2",
 #     device_map="auto",
 # )
 # Processador padrão
-processor = AutoProcessor.from_pretrained("Qwen/Qwen2-VL-7B-Instruct")
 # O intervalo padrão para o número de tokens visuais por imagem no modelo é de 4-16384. Você pode configurar min_pixels e max_pixels conforme suas necessidades, como um intervalo de contagem de tokens de 256-1280, para equilibrar velocidade e uso de memória.
 # min_pixels = 256*28*28
 # max_pixels = 1280*28*28
-# processor = AutoProcessor.from_pretrained("Qwen/Qwen2-VL-7B-Instruct", min_pixels=min_pixels, max_pixels=max_pixels)
 messages = [
     {
@@ -296,9 +296,9 @@ from transformers import Qwen2VLForConditionalGeneration, AutoTokenizer, AutoPro
 # Carregar o modelo em precisão reduzida no(s) dispositivo(s) disponível(is)
 model = Qwen2VLForConditionalGeneration.from_pretrained(
-    "Qwen/Qwen2-VL-7B-Instruct", torch_dtype="auto", device_map="auto"
 )
-processor = AutoProcessor.from_pretrained("Qwen/Qwen2-VL-7B-Instruct")
 # Imagem
 url = "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg"
@@ -527,4 +527,4 @@ print(output_texts)
   journal={arXiv preprint arXiv:2308.12966},
   year={2023}
 }
-```

 # Carregar o modelo no(s) dispositivo(s) disponível(is)
 model = Qwen2VLForConditionalGeneration.from_pretrained(
+    "JJhooww/Fluxi_AI_Small_Vision", torch_dtype="auto", device_map="auto"
 )
 # Recomendamos habilitar o flash_attention_2 para melhor aceleração e economia de memória, especialmente em cenários com múltiplas imagens e vídeos.
 # model = Qwen2VLForConditionalGeneration.from_pretrained(
+#     "JJhooww/Fluxi_AI_Small_Vision",
 #     torch_dtype=torch.bfloat16,
 #     attn_implementation="flash_attention_2",
 #     device_map="auto",
 # )
 # Processador padrão
+processor = AutoProcessor.from_pretrained("JJhooww/Fluxi_AI_Small_Vision")
 # O intervalo padrão para o número de tokens visuais por imagem no modelo é de 4-16384. Você pode configurar min_pixels e max_pixels conforme suas necessidades, como um intervalo de contagem de tokens de 256-1280, para equilibrar velocidade e uso de memória.
 # min_pixels = 256*28*28
 # max_pixels = 1280*28*28
+# processor = AutoProcessor.from_pretrained("JJhooww/Fluxi_AI_Small_Vision", min_pixels=min_pixels, max_pixels=max_pixels)
 messages = [
     {
 # Carregar o modelo em precisão reduzida no(s) dispositivo(s) disponível(is)
 model = Qwen2VLForConditionalGeneration.from_pretrained(
+    "JJhooww/Fluxi_AI_Small_Vision", torch_dtype="auto", device_map="auto"
 )
+processor = AutoProcessor.from_pretrained("JJhooww/Fluxi_AI_Small_Vision")
 # Imagem
 url = "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg"
   journal={arXiv preprint arXiv:2308.12966},
   year={2023}
 }
+```