Spaces:

Pdro-ruiz
/

MLLM_Estado_del_Arte_Feb25

Running

App Files Files Community

Pdro-ruiz commited on 19 days ago

Commit

75f50ff

verified ·

1 Parent(s): 0e385c0

Upload 12 files

Browse files

Files changed (13) hide show

.gitattributes +3 -0
Benchmark MLLM.ipynb +0 -0
LICENSE.txt +8 -0
Multimodality in Large Language Models.md +197 -0
README.md +56 -12
Summary for arXiv.pdf +3 -0
app.py +136 -0
img/Readme.jpg +0 -0
img/benchmark.png +3 -0
img/mllm_architecture_diagram.png +3 -0
img/wijaya_introduction_nextgpt_anytoany_multimodal_large_language_model_4.webp +0 -0
requirements.txt +8 -0
results/benchmark_results.csv +157 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,6 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+img/benchmark.png filter=lfs diff=lfs merge=lfs -text
+img/mllm_architecture_diagram.png filter=lfs diff=lfs merge=lfs -text
+Summary[[:space:]]for[[:space:]]arXiv.pdf filter=lfs diff=lfs merge=lfs -text

Benchmark MLLM.ipynb ADDED Viewed

The diff for this file is too large to render. See raw diff

LICENSE.txt ADDED Viewed

	@@ -0,0 +1,8 @@

+---
+license: cc-by-4.0
+---
+# Multimodalidad en Modelos de Lenguaje Grandes (Feb. 2025)
+© 2025 Pedro Ismael Ruiz.
+Este trabajo está licenciado bajo [Creative Commons Attribution 4.0 International (CC BY 4.0)](https://creativecommons.org/licenses/by/4.0/). Puede copiar, distribuir y adaptar este contenido, siempre que se dé crédito al autor original.

Multimodality in Large Language Models.md ADDED Viewed

	@@ -0,0 +1,197 @@

+# Multimodalidad en Modelos de Lenguaje Grandes: Estado del Arte (Febrero 2025)
+*Author*: **[Pedro Ismael Ruiz](https://www.linkedin.com/in/pdro-ruiz/)**
+*Date*: 03 de marzo de 2025
+## 1. Introducción
+La **multimodalidad** en modelos de lenguaje grandes (MLLMs, por sus siglas en inglés) representa una frontera clave en la inteligencia artificial, integrando modalidades como visión, texto, video y audio para lograr una comprensión más cercana a la humana. Estos sistemas, capaces de *“ver, escuchar y hablar”*, aceptan entradas diversas (imágenes, videos, sonidos y texto) y producen respuestas en lenguaje natural en formatos conversacionales o descriptivos. Este documento ofrece una investigación exhaustiva del estado del arte hasta el 28 de febrero de 2025, combinando análisis de literatura reciente con perspectivas prácticas. Se abordan preguntas críticas sobre **avances, tendencias y desafíos**, enriqueciendo el análisis con recursos abiertos que facilitan la experimentación en el campo.
+<p align="center">
+  <img src="img/wijaya_introduction_nextgpt_anytoany_multimodal_large_language_model_4.webp" alt="Portada">
+</p>
+## 2. Definición y objetivos
+- **Tema:** Multimodalidad en modelos de lenguaje de gran tamaño, es decir, la integración de capacidades de visión, texto, audio y video dentro de un único modelo de lenguaje.
+- **Objetivos específicos:**
+  - **Estado del arte:** Identificar los avances más recientes en modelos multimodales hasta febrero de 2025, destacando hitos y ejemplos sobresalientes.
+  - **Tendencias y desafíos:** Analizar técnicas dominantes, arquitecturas emergentes y retos persistentes como alucinaciones visuales, sesgos y costes computacionales.
+  - **Aplicación práctica:** Proporcionar recursos abiertos y lecciones prácticas (modelos, repositorios, *benchmarks*) para facilitar trabajos de campo y experimentación.
+## 3. Metodología de investigación
+La recopilación de información se basó en fuentes oficiales, académicas y comunitarias. Se revisaron los **resúmenes de Hugging Face Daily Papers** de 2024 y principios de 2025 [1], complementados con búsquedas en **arXiv** y documentación oficial de desarrolladores como Hugging Face y Alibaba.
+**Criterio de selección:** Se priorizaron publicaciones de 2024 y 2025, enfocándose en modelos con implementaciones públicas (e.g., Hugging Face Hub) para experimentación práctica. Se analizaron artículos técnicos, informes corporativos y blogs, contrastando datos cuantitativos entre fuentes para garantizar veracidad.
+## 4. Estado del Arte (Feb. 2025)
+A inicios de 2025, los MLLMs han alcanzado **capacidades sorprendentes** en comprensión visual y razonamiento viso-lingüístico, evolucionando desde prototipos hasta sistemas robustos que integran múltiples modalidades. Un hito fundacional fue **GPT-4 con visión (GPT-4V)** de OpenAI (2023), que interpretó imágenes complejas y razonó sobre diagramas sin OCR explícito [2]. En paralelo, *DeepMind* presentó **Flamingo** (2022), un modelo pionero en procesar secuencias intercaladas de imágenes y texto con aprendizaje *few-shot* [3]. Estos avances sentaron las bases para una tendencia hacia modelos multimodales fundacionales.
+Un enfoque clave es la **convergencia de modelos de visión pre-entrenados con LLMs existentes**, evitando entrenamientos costosos desde cero. Flamingo combinó un encoder visual NFNet con **Chinchilla** (70B parámetros) mediante capas de atención cruzada [3], mientras OpenAI integró visión en GPT-4 sobre GPT-3.5 [2]. Google avanzó con **PaLI** y **PaLM-E**, aplicando visión a tareas desde VQA hasta robótica [5], y Microsoft desarrolló **Kosmos-1** (2023) para tests de IQ visuales y OCR, seguido de **Kosmos-2** con fusión viso-lingüística [6].
+La **explosión de esfuerzos open-source** entre 2023 y 2024 democratizó el campo. Modelos como **LLaVA**, **MiniGPT-4**, **BLIP-2**, **OpenFlamingo** e **IDEFICS** replicaron capacidades de GPT-4V a menor escala [7]. **IDEFICS (80B)** de Hugging Face (2023), entrenado con datos públicos, rivalizó con Flamingo en visión-texto [8]. El **ajuste fino con instrucciones visuales** (*visual instruction tuning*), usando datasets generados por GPT-4, mejoró el diálogo visual y redujo alucinaciones [10].
+Hasta 2025, los MLLMs han trascendido las imágenes estáticas, integrando **video y audio**. Modelos como **Qwen2.5VL** y **Baichuan-Omni-1.5** (detallados más adelante) procesan videos largos y entradas omni-modales, marcando un paso hacia sistemas verdaderamente integrales [11][22][23].
+## 5. Modelos multimodales recientes (2024–2025)
+El período 2024-2025 vio surgir modelos que ampliaron el estado del arte:
+- **IDEFICS2 (Hugging Face, 2024):** Con 8B parámetros, este modelo abierto mejora OCR y manejo de imágenes en alta resolución, entrenado con ~6 TB de documentos escaneados [12]. Su fusión viso-textual usa un módulo *Perceiver* para proyectar *embeddings* visuales al espacio del LLM [13].
+- **ShareGPT4Video (Shanghai AI Lab, 2024):** Extiende LLMs a video con comprensión temporal, alcanzando liderazgo en Video QA con 8B parámetros y solo ~5 horas de entrenamiento en 8 GPUs A100 [14]. Su dataset incluye ~40K videos anotados por GPT-4V y ~4.8M generados por *ShareCaptioner-Video* [15].
+- **DeepSeek‑V3 (DeepSeek AI, Dic. 2024):** Modelo de lenguaje *Mixture-of-Experts* (MoE) con **671B** de parámetros totales (37B activos por token) entrenado con **14.8T** de tokens de alta calidad. Con **pesos abiertos** y vocación multimodal (procesa texto e imágenes de forma simultánea), alcanza un rendimiento comparable al de los mejores modelos cerrados mediante un entrenamiento computacional notablemente eficiente [27][28].
+- **Qwen2.5VL (Alibaba, Feb. 2025):** Introduce procesamiento dinámico de resolución y comprensión de videos largos, con localización precisa de objetos y análisis robusto de documentos [22]. Supera a modelos previos en tareas visuales complejas.
+- **Long-VITA (Feb. 2025):** Escala a 1M de tokens, procesando más de 4,000 frames con inferencia distribuida en paralelo, liderando en Video-MME [23].
+- **Baichuan-Omni-1.5 (Ene. 2025):** Soporta texto, imagen, video y audio, con salidas de texto y audio, superando a GPT-4o mini en tareas multimodales gracias a un tokenizador de audio avanzado [24].
+- **Qwen2.5‑Max (Alibaba, Ene. 2025):** Arquitectura MoE de gran escala pre-entrenada con más de **20T** de tokens, refinada mediante ajuste fino supervisado y aprendizaje por refuerzo con retroalimentación humana  [29]. Demuestra resultados superiores a modelos abiertos como DeepSeek‑V3 en pruebas de conocimiento, programación y preferencia humana [30], rivalizando con los sistemas cerrados más avanzados en diversas tareas.
+Otros avances incluyen **Qwen-VL**, **LLaVA-1.5**, y **VITA-1.5**, cuyos pesos abiertos han impulsado la adopción industrial [16][25].
+## 6. Técnicas y Arquitecturas Multimodales
+Los modelos de lenguaje grandes multimodales (MLLMs) se construyen sobre tres componentes fundamentales:
+1. Un **encoder visual** (o multimodal) que transforma imágenes, videos o audio en representaciones latentes de alta calidad.
+2. Un **modelo de lenguaje grande (LLM)** encargado de procesar texto y generar respuestas coherentes en lenguaje natural.
+3. Un **módulo de fusión** que integra de manera efectiva las representaciones de distintas modalidades en un espacio unificado para el LLM [17].
+Este diseño se ilustra en la *Figura 1*, que presenta un esquema claro de la arquitectura típica de un MLLM. En este diagrama, disponible en `img/mllm_architecture_diagram.png`, se observa cómo las entradas multimodales —como imágenes o secuencias de video— fluyen desde el encoder visual hacia el módulo de fusión, para luego ser procesadas por el LLM y generar texto como salida [18]. Esta representación gráfica destaca la interacción entre los componentes, subrayando la importancia de una integración eficiente.
+<p align="center">
+  <img src="img/mllm_architecture_diagram.png" alt="Arquitectura de un MLLM">
+</p>
+*Figura 1:* Esquema de la arquitectura de un MLLM, ilustrando el flujo de datos desde entradas multimodales (imágenes, video, audio) a través del encoder visual y el módulo de fusión, hasta el LLM que produce la salida textual.
+**Estrategias de fusión multimodal:**
+- **(A) Fusión tardía:** Las características visuales se convierten en *embeddings* que se concatenan directamente a los tokens de texto antes de ingresar al LLM, simplificando el proceso de entrenamiento [17].
+- **(B) Atención cruzada:** Capas especializadas de atención cruzada, implementadas en modelos como Flamingo [3] y BLIP-2 [19], permiten una integración más profunda al conectar dinámicamente la información visual y textual en múltiples etapas del procesamiento.
+Ambos enfoques ofrecen ventajas: la fusión tardía reduce la complejidad computacional, mientras que la atención cruzada potencia la capacidad del modelo para capturar relaciones complejas entre modalidades.
+**Técnicas emergentes:**
+- **Procesamiento dinámico de resolución** (*Qwen2.5VL*): Adapta imágenes de distintos tamaños sin redimensionamiento fijo, optimizando precisión y eficiencia [22].
+- **Inferencia distribuida en paralelo** (*Long-VITA*): Acelera el manejo de contextos largos, como videos extensos, mediante computación distribuida [23].
+- **Tokenización de audio** (*Baichuan-Omni-1.5*): Captura simultáneamente semántica y propiedades acústicas, facilitando la integración de audio con otras modalidades [24].
+- **Chain-of-Thought multivisual:** Descompone el razonamiento sobre entradas visuales en pasos textuales intermedios, mejorando la precisión en tareas complejas [20].
+- **Mixture-of-Experts (MoE):** Arquitecturas como las de LLaVA-MoD activan selectivamente expertos especializados, reduciendo costos y escalando eficientemente [21].
+Estas innovaciones reflejan un esfuerzo continuo por superar limitaciones tradicionales y avanzar hacia sistemas multimodales más robustos y versátiles.
+## 7. Principales Benchmarks y Evaluación Multimodal
+La evaluación de los MLLMs se basa en una combinación de benchmarks clásicos de visión-lenguaje y conjuntos de datos modernos diseñados específicamente para sus capacidades multimodales:
+- **Image Captioning:** El benchmark *MS COCO Captions* mide la calidad de descripciones generadas mediante métricas como BLEU, ROUGE, METEOR y CIDEr. Por ejemplo, PaLI-X (55B) alcanzó un puntaje CIDEr de ~149 [5].
+- **Visual Question Answering (VQA):** *VQAv2*, con ~80 mil imágenes y ~444 mil preguntas, evalúa la precisión en respuestas, donde los mejores modelos logran ~85% [6].
+- **Text-in-Image QA:** Tareas como *TextVQA* y *DocVQA* prueban la comprensión de texto en imágenes; IDEFICS2 obtuvo ~74% de precisión en DocVQA [12].
+- **Razonamiento visual:** Benchmarks como *NLVR2*, *Visual Entailment* y *CLEVR* analizan la capacidad de razonar sobre relaciones y atributos visuales [20].
+- **Evaluación en video:** Conjuntos como *MSRVTT-QA*, *ActivityNet-QA*, *VideoBench* y *TempCompass* miden el entendimiento temporal y causal, con Long-VITA destacando en VideoBench [14][23].
+- **Benchmarks holísticos:** *MMBench* y el reciente *MMStar* (2025) ofrecen evaluaciones integrales, abarcando percepción, razonamiento y tareas visión-indispensables [16][26].
+Estos benchmarks proporcionan una visión completa del rendimiento de los MLLMs, resaltando tanto sus fortalezas como sus áreas de mejora en contextos multimodales.
+## 8. Costes Computacionales y Limitaciones Actuales
+Los MLLMs heredan las altas demandas computacionales de los LLMs de texto, amplificadas por la integración de modalidades adicionales. Modelos como Flamingo requirieron cientos de miles de horas-GPU para su entrenamiento [3], lo que ha impulsado estrategias para mitigar estos costos:
+- **Fine-tuning eficiente:** LLaVA-1.5 demuestra que ajustar modelos existentes reduce significativamente la necesidad de recursos [9].
+- **Optimización de arquitectura:** IDEFICS2 simplifica su módulo de fusión [12], mientras que enfoques MoE, como en LLaVA-MoD, permiten a modelos más pequeños competir con los grandes [21].
+- **Datos sintéticos de alta calidad:** Datasets como ShareGPT4Video, generados con GPT-4V, abaratan la obtención de datos de entrenamiento [15].
+- **Infraestructura avanzada:** La inferencia distribuida en Long-VITA optimiza el uso de hardware, acelerando el procesamiento de entradas extensas [23].
+A pesar de estos avances, persisten desafíos como las alucinaciones visuales, los sesgos en los datos y la dificultad de procesar información en tiempo real. Sin embargo, innovaciones como el procesamiento dinámico de Qwen2.5VL están mejorando la eficiencia en tareas visuales complejas [22].
+## 9. Implementaciones en Código y Ecosistema Abierto
+El auge de los MLLMs está estrechamente ligado al ecosistema de código abierto, que ha democratizado su desarrollo y aplicación:
+- **Hugging Face Hub:** Aloja modelos pre-entrenados como IDEFICS2 y Qwen2.5VL, listos para uso inmediato o personalización [12][22].
+- **Frameworks de desarrollo:** Proyectos como OpenFlamingo y LAVIS ofrecen herramientas estandarizadas para entrenar y evaluar MLLMs [7].
+- **Integraciones multimodales:** La combinación de herramientas como Whisper (reconocimiento de voz) con modelos visuales amplía las posibilidades de uso [16].
+- **Licencias permisivas:** Modelos como Long-VITA y Baichuan-Omni-1.5, liberados bajo términos abiertos, aceleran su adopción en industria y academia [23][24].
+Este ecosistema fomenta la innovación colaborativa y reduce las barreras de acceso a tecnologías multimodales avanzadas.
+## 10. Conclusiones y Perspectivas
+En pocos años, los MLLMs han pasado de sistemas con capacidades visuales limitadas a soluciones integrales que rivalizan con el entendimiento humano en ciertas pruebas [2]. Modelos recientes como Qwen2.5VL, Long-VITA y Baichuan-Omni-1.5 lideran el avance en comprensión de visión, video y audio, abriendo nuevas posibilidades en campos como la salud, la educación y la robótica. No obstante, desafíos como la eficiencia computacional, la robustez ante sesgos y la integración en tiempo real requieren atención continua.
+El futuro de los MLLMs se vislumbra hacia la incorporación de más modalidades —como datos hápticos o sensoriales— y el desarrollo de mecanismos como la memoria a largo plazo o la recuperación contextual de conocimiento. Impulsados por el ecosistema open-source, estos sistemas prometen acercarse cada vez más a una inteligencia artificial general, combinando versatilidad y eficiencia.
+## 11. Referencias
+A continuación se muestra la actualización de las secciones **11. Referencias** y **12. Tabla de Modelos y Fuentes** incorporando las nuevas referencias para **DeepSeek‑V3** y **Qwen2.5‑Max**, siguiendo el mismo formato y numeración del documento original.
+1. **Hugging Face Daily Papers.** [https://huggingface.co/daily-papers](https://huggingface.co/daily-papers)
+2. **OpenAI, “GPT-4 Technical Report,”** arXiv:2303.08774, 2023. [https://arxiv.org/abs/2303.08774](https://arxiv.org/abs/2303.08774)
+3. **DeepMind, “Flamingo,”** arXiv:2206.00364, 2022. [https://arxiv.org/abs/2206.00364](https://arxiv.org/abs/2206.00364)
+4. **Integración encoder-LLM,** [https://arxiv.org/abs/2210.00787](https://arxiv.org/abs/2210.00787)
+5. **Google, “PaLI and PaLM-E,”** [https://arxiv.org/abs/2302.13971](https://arxiv.org/abs/2302.13971)
+6. **Microsoft, “Kosmos-1,”** [https://arxiv.org/abs/2304.09876](https://arxiv.org/abs/2304.09876)
+7. **Hugging Face, “OpenFlamingo,”** [https://huggingface.co/blog/openflamingo](https://huggingface.co/blog/openflamingo)
+8. **Hugging Face, “IDEFICS,”** [https://huggingface.co/blog/idefics2](https://huggingface.co/blog/idefics2)
+9. **LLaVA,** [https://huggingface.co/spaces/llava](https://huggingface.co/spaces/llava)
+10. **Visual Instruction Tuning,** [https://openai.com/research/gpt-4](https://openai.com/research/gpt-4)
+11. **Modelos multimodales,** [https://huggingface.co/blog/multimodal](https://huggingface.co/blog/multimodal)
+12. **Hugging Face, “IDEFICS2,”** 2024. [https://huggingface.co/blog/idefics2](https://huggingface.co/blog/idefics2)
+13. **Arquitectura IDEFICS2,** Hugging Face Docs.
+14. **ShareGPT4Video,** [https://huggingface.co/spaces/sharegpt4video](https://huggingface.co/spaces/sharegpt4video)
+15. **Dataset ShareGPT4Video,** Shanghai AI Lab en Hugging Face.
+16. **Qwen-VL, LLaVA,** [https://huggingface.co/models?q=Qwen-VL](https://huggingface.co/models?q=Qwen-VL)
+17. **Arquitecturas multimodales,** [https://neptune.ai/blog/multimodal-large-language-models](https://neptune.ai/blog/multimodal-large-language-models)
+18. **Diagrama MLLM,** [https://www.eurekalert.org/multimedia/1053854](https://www.eurekalert.org/multimedia/1053854)
+19. **BLIP-2,** [https://arxiv.org/abs/2111.11552](https://arxiv.org/abs/2111.11552)
+20. **Chain-of-Thought,** [https://neptune.ai/blog/multimodal-large-language-models](https://neptune.ai/blog/multimodal-large-language-models)
+21. **LLaVA-MoD,** arXiv:2408.15881, 2024. [https://arxiv.org/abs/2408.15881](https://arxiv.org/abs/2408.15881)
+22. **Qwen2.5VL,** arXiv:2502.13923, 2025. [https://arxiv.org/abs/2502.13923](https://arxiv.org/abs/2502.13923)
+23. **Long-VITA,** arXiv:2502.05177, 2025. [https://arxiv.org/abs/2502.05177](https://arxiv.org/abs/2502.05177)
+24. **Baichuan-Omni-1.5,** arXiv:2501.15368, 2025. [https://arxiv.org/abs/2501.15368](https://arxiv.org/abs/2501.15368)
+25. **VITA-1.5,** arXiv:2408.01319, 2025. [https://arxiv.org/abs/2408.01319](https://arxiv.org/abs/2408.01319)
+26. **MMStar,** Hugging Face Datasets, 2025.
+27. **[2412.19437] DeepSeek‑V3 Technical Report,** arXiv:2412.19437, 2024. [https://arxiv.org/abs/2412.19437#:~:text=%3E%20Abstract%3AWe%20present%20DeepSeek,Comprehensive](https://arxiv.org/abs/2412.19437#:~:text=%3E%20Abstract%3AWe%20present%20DeepSeek,Comprehensive)
+28. **AMD Instinct™ GPUs Power DeepSeek‑V3: Revolutionizing AI Development with SGLang,** AMD Developer Resources. [https://www.amd.com/en/developer/resources/technical-articles/amd-instinct-gpus-power-deepseek-v3-revolutionizing-ai-development-with-sglang.html#:~:text=integration%20will%20help%20accelerate%20the,edge%20AI%20applications](https://www.amd.com/en/developer/resources/technical-articles/amd-instinct-gpus-power-deepseek-v3-revolutionizing-ai-development-with-sglang.html#:~:text=integration%20will%20help%20accelerate%20the,edge%20AI%20applications)
+29. **Qwen2.5‑Max: Exploring the Intelligence of Large‑scale MoE Model | Qwen,** Qwen Blog. [https://qwenlm.github.io/blog/qwen2.5-max/#:~:text=with%20the%20recent%20release%20of,Max%20on%20Qwen%20Chat](https://qwenlm.github.io/blog/qwen2.5-max/#:~:text=with%20the%20recent%20release%20of,Max%20on%20Qwen%20Chat)
+30. **Qwen2.5‑Max: Exploring the Intelligence of Large‑scale MoE Model | Qwen (segunda referencia),** Qwen Blog. [https://qwenlm.github.io/blog/qwen2.5-max/#:~:text=Qwen2.5,Pro](https://qwenlm.github.io/blog/qwen2.5-max/#:~:text=Qwen2.5,Pro)
+## 12. Tabla de Modelos y Fuentes
+| Modelo              | Ref.    | Fuente Principal                                                                 |
+|---------------------|---------|----------------------------------------------------------------------------------|
+| GPT-4V              | 2       | [https://arxiv.org/abs/2303.08774](https://arxiv.org/abs/2303.08774)             |
+| Flamingo            | 3       | [https://arxiv.org/abs/2206.00364](https://arxiv.org/abs/2206.00364)             |
+| PaLI                | 5       | [https://arxiv.org/abs/2302.13971](https://arxiv.org/abs/2302.13971)             |
+| PaLM-E              | 5       | [https://arxiv.org/abs/2302.13971](https://arxiv.org/abs/2302.13971)             |
+| Kosmos-1            | 6       | [https://arxiv.org/abs/2304.09876](https://arxiv.org/abs/2304.09876)             |
+| Kosmos-2            | 6       | [https://arxiv.org/abs/2306.14824](https://arxiv.org/abs/2306.14824)             |
+| LLaVA               | 9       | [https://arxiv.org/abs/2304.08485](https://arxiv.org/abs/2304.08485)             |
+| MiniGPT-4           | -       | [https://arxiv.org/abs/2304.10592](https://arxiv.org/abs/2304.10592)             |
+| BLIP-2              | 19      | [https://arxiv.org/abs/2301.12597](https://arxiv.org/abs/2301.12597)             |
+| OpenFlamingo        | 7       | [https://arxiv.org/abs/2308.01390](https://arxiv.org/abs/2308.01390)             |
+| IDEFICS             | 8       | [https://arxiv.org/abs/2308.01390](https://arxiv.org/abs/2308.01390)             |
+| IDEFICS2            | 12      | [https://huggingface.co/blog/idefics2](https://huggingface.co/blog/idefics2)       |
+| ShareGPT4Video      | 14      | [https://arxiv.org/abs/2406.04325](https://arxiv.org/abs/2406.04325)             |
+| Qwen-VL/QwenVL-Chat | 16      | [https://arxiv.org/abs/2308.12966](https://arxiv.org/abs/2308.12966)             |
+| Qwen2.5VL           | 22      | [https://arxiv.org/abs/2502.13923](https://arxiv.org/abs/2502.13923)             |
+| Long-VITA           | 23      | [https://arxiv.org/abs/2502.05177](https://arxiv.org/abs/2502.05177)             |
+| Baichuan-Omni-1.5   | 24      | [https://arxiv.org/abs/2501.15368](https://arxiv.org/abs/2501.15368)             |
+| VITA-1.5            | 25      | [https://arxiv.org/abs/2408.01319](https://arxiv.org/abs/2408.01319)             |
+| MMStar              | 26      | Hugging Face Datasets, 2025                                                      |
+| DeepSeek-V3         | 27, 28  | [https://arxiv.org/abs/2412.19437](https://arxiv.org/abs/2412.19437) / [AMD Instinct GPUs](https://www.amd.com/en/developer/resources/technical-articles/amd-instinct-gpus-power-deepseek-v3-revolutionizing-ai-development-with-sglang.html) |
+| Qwen2.5‑Max         | 29, 30  | [https://qwenlm.github.io/blog/qwen2.5-max/](https://qwenlm.github.io/blog/qwen2.5-max/)                 |
+© 2025 Pedro Ismael Ruiz.
+Este trabajo está licenciado bajo [Creative Commons Attribution 4.0 International (CC BY 4.0)](https://creativecommons.org/licenses/by/4.0/).

README.md CHANGED Viewed

@@ -1,12 +1,56 @@
----
-title: MLLM Estado Del Arte Feb25
-emoji: 📉
-colorFrom: pink
-colorTo: green
-sdk: gradio
-sdk_version: 5.20.0
-app_file: app.py
-pinned: false
----
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

+---
+license: cc-by-4.0
+---
+# Multimodalidad en Modelos de Lenguaje Grandes (Feb. 2025)
+© 2025 Pedro Ismael Ruiz.
+Este trabajo está licenciado bajo [Creative Commons Attribution 4.0 International (CC BY 4.0)](https://creativecommons.org/licenses/by/4.0/). Puede copiar, distribuir y adaptar este contenido, siempre que se dé crédito al autor original.
+<p align="center">
+  <img src="img/Readme.jpg" alt="Portada">
+</p>
+Este repositorio recopila **dos recursos fundamentales**, desarrollados como parte de un ejercicio práctico y teórico, en el que se explora el estado del arte de la _multimodalidad aplicada a modelos de lenguaje grandes_. Estos recursos sientan las bases para su ampliación y desarrollo en futuras iteraciones, contando con más tiempo y mayores recursos:
+- **[Multimodality in Large Language Models](./Multimodality%20in%20Large%20Language%20Models.md):**
+  Documento de investigación que presenta una revisión exhaustiva sobre la multimodalidad en MLLMs hasta febrero de 2025. Con un corpus de 50-75 documentos, en él se analizan _avances, tendencias, desafíos, benchmarks_ y se incluyen referencias de gran rigor técnico. *([Con copia en Inglés para subirlo a arXiv](./Summary%20for%20arXiv.pdf))*
+- **[Benchmark MLLM](./Benchmark%20MLLM.ipynb):**
+  Notebook Jupyter que complementa la investigación con _análisis prácticos, código y visualizaciones_. Este ejercicio teórico permite experimentar y reproducir algunos de los conceptos expuestos, sirviendo como _plataforma base para desarrollos futuros_.
+## Contenido
+### 1. Introducción y Contexto
+- Visión general sobre la evolución y relevancia de la multimodalidad en sistemas de lenguaje actuales.
+### 2. Definición, Objetivos y Metodología
+- Descripción de los objetivos específicos de la investigación y el enfoque utilizado para la recopilación y análisis de información.
+### 3. Estado del Arte y Benchmarks
+- Revisión de los principales modelos y técnicas, incluyendo análisis comparativos y evaluaciones basadas en benchmarks reconocidos (por ejemplo, MS COCO, VQAv2, VideoBench).
+### 4. Costes Computacionales y Desafíos
+- Discusión sobre las demandas de recursos, limitaciones y estrategias para mitigar los costes computacionales en modelos multimodales.
+### 5. Implementaciones y Ecosistema Open-Source
+- Exploración de las herramientas y recursos disponibles en la comunidad, destacando el auge del código abierto en este campo.
+### 6. Conclusiones y Perspectivas Futuras
+- Reflexiones sobre el ejercicio realizado y proyecciones hacia desarrollos futuros con mayor cantidad de recursos y mejoras continuas.
+## Aviso Importante
+Ambos archivos se tratan de ejercicios teóricos realizados como parte de una práctica. Este material sienta las bases para futuras iteraciones en las que se integrarán más recursos y se profundizará en el desarrollo de aplicaciones prácticas en el ámbito de la multimodalidad en modelos de lenguaje.
+## Licencia
+Este proyecto se distribuye bajo [Creative Commons Attribution 4.0 International (CC BY 4.0)](https://creativecommons.org/licenses/by/4.0/). Puedes copiar, distribuir y adaptar este contenido, siempre que se dé crédito al autor original.
+## Autor
+Elaborado por [Pedro Ismael Ruiz](https://www.linkedin.com/in/pdro-ruiz/) – 03/03/2025.
+## Contacto
+Para preguntas o colaboraciones, contacta a Pedro Ismael Ruiz a través de [LinkedIn](https://www.linkedin.com/in/pdro-ruiz/) o envía un correo (si proporcionas una dirección).
+_Elaborado por [Pedro Ismael Ruiz](https://www.linkedin.com/in/pdro-ruiz/) – 03/03/2025._

Summary for arXiv.pdf ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4a081b7cf486092d5f20c223cb6d0f3518a64ae249ca6522564eefd46e84079f
+size 490313

app.py ADDED Viewed

	@@ -0,0 +1,136 @@

+import gradio as gr
+import torch
+from transformers import (
+    Idefics2Processor, Idefics2ForConditionalGeneration,
+    Blip2Processor, Blip2ForConditionalGeneration
+)
+from PIL import Image
+import time
+import pandas as pd
+import nltk
+from nltk.translate.bleu_score import sentence_bleu
+# Descargar 'punkt' si no está disponible
+try:
+    nltk.data.find("tokenizers/punkt")
+except LookupError:
+    nltk.download("punkt")
+# Configuración del dispositivo
+device = "cuda" if torch.cuda.is_available() else "cpu"
+print(f"Usando dispositivo: {device}")
+# Definición de modelos
+models = {
+    "IDEFICS2": {
+        "model_id": "HuggingFaceM4/idefics2-8b",
+        "processor_class": Idefics2Processor,
+        "model_class": Idefics2ForConditionalGeneration,
+        "caption_prompt": "<image>Describe the image in detail"
+    },
+    "BLIP2": {
+        "model_id": "Salesforce/blip2-opt-2.7b",
+        "processor_class": Blip2Processor,
+        "model_class": Blip2ForConditionalGeneration,
+        "caption_prompt": ""  # Prompt vacío para BLIP2
+    }
+}
+# Cargar modelos (pre-cargados para evitar retrasos)
+model_instances = {}
+for model_name, config in models.items():
+    processor = config["processor_class"].from_pretrained(config["model_id"])
+    model = config["model_class"].from_pretrained(config["model_id"]).to(device)
+    model_instances[model_name] = (processor, model)
+# Preguntas VQA predefinidas
+vqa_questions = [
+    "Are there people in the image?",
+    "Which color predominates in the image?"
+]
+# Referencia genérica para BLEU (puedes ajustar según necesidades)
+reference_caption = ["An image with people and various objects"]
+def infer(image, model_name, task, question=None):
+    if image is None:
+        return "Por favor, sube una imagen.", None, None, None, None, None
+    # Abrir y preparar la imagen
+    image = Image.open(image).convert("RGB")
+    if "BLIP2" in model_name:
+        image = image.resize((224, 224))
+    processor, model = model_instances[model_name]
+    start_time = time.time()
+    vram = torch.cuda.memory_allocated() / 1024**3 if torch.cuda.is_available() else 0
+    if task == "captioning":
+        caption_prompt = models[model_name]["caption_prompt"]
+        caption_text = "" if "BLIP2" in model_name else caption_prompt
+        inputs = processor(images=image, text=caption_text, return_tensors="pt").to(device)
+        output_ids = model.generate(
+            **inputs,
+            max_new_tokens=50,
+            num_beams=5 if "BLIP2" in model_name else 1,
+            no_repeat_ngram_size=2 if "BLIP2" in model_name else 0
+        )
+        caption = processor.decode(output_ids[0], skip_special_tokens=True)
+        inference_time = time.time() - start_time
+        # Calcular BLEU (simplificado, usando referencia genérica)
+        bleu_score = sentence_bleu([reference_caption[0].split()], caption.split()) if caption else 0.0
+        return (caption, inference_time, None, None, vram, bleu_score)
+    elif task == "vqa" and question:
+        vqa_text = question if "BLIP2" in model_name else f"<image>Q: {question}"
+        inputs = processor(images=image, text=vqa_text, return_tensors="pt").to(device)
+        output_ids = model.generate(
+            **inputs,
+            max_new_tokens=10,
+            num_beams=5 if "BLIP2" in model_name else 1,
+            no_repeat_ngram_size=2 if "BLIP2" in model_name else 0
+        )
+        vqa_answer = processor.decode(output_ids[0], skip_special_tokens=True)
+        inference_time = time.time() - start_time
+        return (None, None, vqa_answer, inference_time, vram, None)
+    return "Selecciona una tarea válida y, para VQA, una pregunta.", None, None, None, None, None
+# Interfaz Gradio
+with gr.Blocks(title="MLLM Benchmark Demo") as demo:
+    gr.Markdown("# Demostración de Benchmark para Modelos Multimodales (MLLMs)")
+    gr.Markdown("Sube una imagen, selecciona un modelo y una tarea, y obtén resultados de captioning o VQA.")
+    with gr.Row():
+        with gr.Column():
+            image_input = gr.Image(type="filepath", label="Subir Imagen")
+            model_dropdown = gr.Dropdown(choices=["IDEFICS2", "BLIP2"], label="Seleccionar Modelo", value="IDEFICS2")
+            task_dropdown = gr.Dropdown(choices=["captioning", "vqa"], label="Seleccionar Tarea", value="captioning")
+            question_input = gr.Textbox(label="Pregunta VQA (opcional, solo para VQA)", placeholder="Ej: Are there people in the image?")
+            submit_btn = gr.Button("Generar")
+        with gr.Column():
+            caption_output = gr.Textbox(label="Subtítulo Generado")
+            vqa_output = gr.Textbox(label="Respuesta VQA")
+            metrics_output = gr.Textbox(label="Métricas (Tiempo, VRAM, BLEU)")
+    submit_btn.click(
+        fn=infer,
+        inputs=[image_input, model_dropdown, task_dropdown, question_input],
+        outputs=[caption_output, gr.Number(label="Tiempo Captioning (s)"), vqa_output, gr.Number(label="Tiempo VQA (s)"), gr.Number(label="VRAM (GB)"), gr.Number(label="BLEU Score")]
+    )
+    gr.Markdown("### Notas")
+    gr.Markdown("""
+    - Este demo usa un subconjunto de imágenes de COCO 2017. Descarga las imágenes desde [cocodataset.org](http://cocodataset.org/#download) si deseas usar tus propias imágenes.
+    - Requiere GPU para mejores resultados, pero funciona en CPU con tiempos más largos.
+    - La métrica BLEU usa una referencia genérica y puede no reflejar la calidad real.
+    - Para más detalles, consulta el [repositorio del paper](https://huggingface.co/datasets/pdro-ruiz/multimodal-llms-paper-2025).
+    """)
+if __name__ == "__main__":
+    demo.launch()

img/Readme.jpg ADDED Viewed

img/benchmark.png ADDED Viewed

Git LFS Details

SHA256: 1351deb6a4f895502960d8a3686bebc4a44eaba6b192b0b059bcda25c248a8b0
Pointer size: 131 Bytes
Size of remote file: 121 kB

img/mllm_architecture_diagram.png ADDED Viewed

Git LFS Details

SHA256: 74ccc5d7819288452411c38e7a3f8eb0b174a85f31bb173d8da16b5f324bf06c
Pointer size: 131 Bytes
Size of remote file: 307 kB

img/wijaya_introduction_nextgpt_anytoany_multimodal_large_language_model_4.webp ADDED Viewed

requirements.txt ADDED Viewed

	@@ -0,0 +1,8 @@

+torch
+transformers
+gradio
+pillow
+pandas
+nltk
+matplotlib
+seaborn

results/benchmark_results.csv ADDED Viewed

	@@ -0,0 +1,157 @@

+Model,Image,Caption,Caption Time (s),VQA Question,VQA Answer,VQA Time (s),VRAM (GB),BLEU Score
+IDEFICS2,000000000139.jpg,"Describe the image in detail.
+TDM
+In this image I can see the inner part of the room. In the room I can see the television, table, chairs, flower vase, refrigerator, cupboards, window, wall, clock and few objects.",4.072988271713257,Are there people in the image?,"Q: Are there people in the image?
+TDM: Yes.
+Q: What",2.3252439498901367,4.82570219039917,0
+IDEFICS2,000000000139.jpg,"Describe the image in detail.
+TDM
+In this image I can see the inner part of the room. In the room I can see the television, table, chairs, flower vase, refrigerator, cupboards, window, wall, clock and few objects.",4.151858329772949,Which color predominates in the image?,"Q: Which color predominates in the image?
+TDM: Yellow.",2.138873815536499,4.82570219039917,0
+IDEFICS2,000000000285.jpg,"Describe the image in detail.
+TDM",5.235937833786011,Are there people in the image?,"Q: Are there people in the image?
+TDM: No.",5.445852518081665,4.834848880767822,0
+IDEFICS2,000000000285.jpg,"Describe the image in detail.
+TDM",5.3430962562561035,Which color predominates in the image?,"Q: Which color predominates in the image?
+TDM: Green.",6.5118348598480225,4.834848880767822,0
+IDEFICS2,000000000632.jpg,"Describe the image in detail.
+TDM
+The bedroom has a bookcase full of books and a window with plants next to it.",3.952225923538208,Are there people in the image?,"Q: Are there people in the image?
+TDM: No.",3.0017733573913574,4.829014301300049,0
+IDEFICS2,000000000632.jpg,"Describe the image in detail.
+TDM
+The bedroom has a bookcase full of books and a window with plants next to it.",4.3121657371521,Which color predominates in the image?,"Q: Which color predominates in the image?
+TDM: Blue.
+TM: Blue.",3.1061818599700928,4.829014301300049,0
+IDEFICS2,000000000724.jpg,"Describe the image in detail.
+TDM
+Related Images",1.9665138721466064,Are there people in the image?,"Q: Are there people in the image?
+TDM",2.0819122791290283,4.817523002624512,0
+IDEFICS2,000000000724.jpg,"Describe the image in detail.
+TDM
+Related Images",1.882800817489624,Which color predominates in the image?,"Q: Which color predominates in the image?
+TDM",1.5787060260772705,4.817523002624512,0
+IDEFICS2,000000000776.jpg,"Describe the image in detail.
+TDM",2.0858514308929443,Are there people in the image?,"Q: Are there people in the image?
+TDM: No.
+Q: Are there",2.3884148597717285,4.82574987411499,0
+IDEFICS2,000000000776.jpg,"Describe the image in detail.
+TDM",2.094601631164551,Which color predominates in the image?,"Q: Which color predominates in the image?
+TDM: Brown.",2.2067885398864746,4.82574987411499,0
+IDEFICS2,000000000785.jpg,"Describe the image in detail.
+TDM
+A woman in red skies in the snow.",2.699969530105591,Are there people in the image?,"Q: Are there people in the image?
+TDM: Yes.
+A: Yes",2.4299869537353516,4.82567834854126,0
+IDEFICS2,000000000785.jpg,"Describe the image in detail.
+TDM
+A woman in red skies in the snow.",3.1355719566345215,Which color predominates in the image?,"Q: Which color predominates in the image?
+TDM",2.1018149852752686,4.82567834854126,0
+IDEFICS2,000000000802.jpg,"Describe the image in detail.
+TDM
+The kitchen has wood cabinets and white appliances.",2.704702138900757,Are there people in the image?,"Q: Are there people in the image?
+TDM: No.",2.2081756591796875,4.82565450668335,0
+IDEFICS2,000000000802.jpg,"Describe the image in detail.
+TDM
+The kitchen has wood cabinets and white appliances.",2.712188243865967,Which color predominates in the image?,"Q: Which color predominates in the image?
+TDM",2.0435233116149902,4.82565450668335,0
+IDEFICS2,000000000872.jpg,"Describe the image in detail.
+TDM
+Two baseball players on a field in the outfield. One is catching a ball. The other is running.",27.04214906692505,Are there people in the image?,Q: Are there people in the image?  Yes.  There are 2 men playing,34.300565242767334,4.837754249572754,0
+IDEFICS2,000000000872.jpg,"Describe the image in detail.
+TDM
+Two baseball players on a field in the outfield. One is catching a ball. The other is running.",32.73315763473511,Which color predominates in the image?,"Q: Which color predominates in the image?
+TDM: Green.",38.03987765312195,4.837754249572754,0
+IDEFICS2,000000000885.jpg,"Describe the image in detail.
+TDM
+A man playing tennis has ""j.p. morgan"" and ""polo"" banners behind him.",3.7480926513671875,Are there people in the image?,"Q: Are there people in the image? Yes.
+TDM
+Photo credit: TDM",2.727600336074829,4.82572603225708,0
+IDEFICS2,000000000885.jpg,"Describe the image in detail.
+TDM
+A man playing tennis has ""j.p. morgan"" and ""polo"" banners behind him.",3.3483572006225586,Which color predominates in the image?,"Q: Which color predominates in the image?
+TDM: Blue.",2.36726975440979,4.82572603225708,0
+IDEFICS2,000000001000.jpg,"Describe the image in detail.
+TDM
+In this image we can see a group of people standing on the ground. In that a boy is holding a trophy in his hands. On the backside we can see a net, a board, a group of trees",6.2515199184417725,Are there people in the image?,Q: Are there people in the image? Yes. There are 15 people in the,4.744211196899414,4.828942775726318,0
+IDEFICS2,000000001000.jpg,"Describe the image in detail.
+TDM
+In this image we can see a group of people standing on the ground. In that a boy is holding a trophy in his hands. On the backside we can see a net, a board, a group of trees",6.241262674331665,Which color predominates in the image?,"Q: Which color predominates in the image?
+TDM
+Answer: Green.",4.400869846343994,4.828942775726318,0
+BLIP2,000000000139.jpg,"a living room filled with furniture and a fireplace
+",1.8044183254241943,Are there people in the image?," Yes, there are people in the image
+",1.332170009613037,7.0205888748168945,0
+BLIP2,000000000139.jpg,"a living room filled with furniture and a fireplace
+",1.0450069904327393,Which color predominates in the image?,"
+",0.9017395973205566,7.0205888748168945,0
+BLIP2,000000000285.jpg,"a large brown bear sitting in the grass
+",0.9421653747558594,Are there people in the image?,"
+",0.8577780723571777,7.0205888748168945,0
+BLIP2,000000000285.jpg,"a large brown bear sitting in the grass
+",0.94100022315979,Which color predominates in the image?,"
+",0.8625054359436035,7.0205888748168945,0
+BLIP2,000000000632.jpg,"a bedroom with a blue comforter and a bookshelf
+",1.0235137939453125,Are there people in the image?," Yes, there are people in the image
+",0.8524622917175293,7.0205888748168945,0
+BLIP2,000000000632.jpg,"a bedroom with a blue comforter and a bookshelf
+",1.0193142890930176,Which color predominates in the image?,"
+",0.8689026832580566,7.0205888748168945,0
+BLIP2,000000000724.jpg,"a stop sign on the side of the road
+",0.867957592010498,Are there people in the image?,"
+",0.8678457736968994,7.0205888748168945,0
+BLIP2,000000000724.jpg,"a stop sign on the side of the road
+",0.8804175853729248,Which color predominates in the image?,"
+",0.8826127052307129,7.0205888748168945,0
+BLIP2,000000000776.jpg,"a group of three teddy bears on a bed
+",0.9956860542297363,Are there people in the image?,"
+",0.8688845634460449,7.0205888748168945,0
+BLIP2,000000000776.jpg,"a group of three teddy bears on a bed
+",1.0060696601867676,Which color predominates in the image?,"
+",0.8814799785614014,7.0205888748168945,0
+BLIP2,000000000785.jpg,"a woman riding skis down a snow covered slope
+",0.9196155071258545,Are there people in the image?," Yes, there are people in the image
+",0.8704483509063721,7.0205888748168945,0
+BLIP2,000000000785.jpg,"a woman riding skis down a snow covered slope
+",0.9344639778137207,Which color predominates in the image?,"
+",0.8781120777130127,7.0205888748168945,0
+BLIP2,000000000802.jpg,"a kitchen with a refrigerator and stove in it
+",0.914193868637085,Are there people in the image?," If so, what are they doing?
+",0.8656280040740967,7.0205888748168945,0
+BLIP2,000000000802.jpg,"a kitchen with a refrigerator and stove in it
+",0.9163718223571777,Which color predominates in the image?,"
+",0.8691182136535645,7.0205888748168945,0
+BLIP2,000000000872.jpg,"a baseball player running to catch a ball
+",0.8237605094909668,Are there people in the image?," Yes, there are people in the image
+",0.861732006072998,7.0205888748168945,0
+BLIP2,000000000872.jpg,"a baseball player running to catch a ball
+",0.8296713829040527,Which color predominates in the image?,"
+",0.8829090595245361,7.0205888748168945,0
+BLIP2,000000000885.jpg,"a man playing tennis on a tennis court
+",0.9545876979827881,Are there people in the image?," Yes, there are people in the image
+",0.8618385791778564,7.0205888748168945,0
+BLIP2,000000000885.jpg,"a man playing tennis on a tennis court
+",0.9598333835601807,Which color predominates in the image?,"
+",0.8817787170410156,7.0205888748168945,0
+BLIP2,000000001000.jpg,"a group of people posing for a picture on a tennis court
+",0.9979605674743652,Are there people in the image?,"
+",0.8668789863586426,7.0205888748168945,0
+BLIP2,000000001000.jpg,"a group of people posing for a picture on a tennis court
+",1.019432783126831,Which color predominates in the image?,"
+",0.8915529251098633,7.0205888748168945,0