|
--- |
|
tasks: |
|
|
|
- multimodal-dialogue |
|
|
|
studios: |
|
|
|
- damo/mPLUG-Owl |
|
|
|
model-type: |
|
|
|
- mplug-owl2 |
|
|
|
domain: |
|
|
|
- multi-modal |
|
|
|
frameworks: |
|
|
|
- pytorch |
|
|
|
backbone: |
|
|
|
- transformer |
|
|
|
containers: |
|
|
|
license: apache-2.0 |
|
|
|
language: |
|
|
|
- en |
|
|
|
tags: |
|
|
|
- transformer |
|
- mPLUG |
|
- Multimodal |
|
- ChatGPT |
|
- GPT |
|
- Alibaba |
|
|
|
--- |
|
|
|
# mPLUG-Owl2介绍 |
|
|
|
mPLUG-Owl2是一种面向多模态语言模型的模块化的训练范式。其能学习与语言空间相适应的视觉知识,并支持在多模态场景(支持图片、文本输入)下进行多轮对话。它涌现多图关系理解,场景文本理解和基于视觉的文档理解等能力。 |
|
|
|
## 模型描述 |
|
|
|
mPLUG-Owl2基于mPLUG-2模块化的思想,通过多阶段分别训练模型的视觉底座与语言模型,使其视觉知识能与预训练语言模型紧密协作,达到了显著优于主流多模态语言模型的效果。 |
|
 |
|
|