File size: 929 Bytes
236ae1f |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 |
---
tasks:
- multimodal-dialogue
studios:
- damo/mPLUG-Owl
model-type:
- mplug-owl2
domain:
- multi-modal
frameworks:
- pytorch
backbone:
- transformer
containers:
license: apache-2.0
language:
- en
tags:
- transformer
- mPLUG
- Multimodal
- ChatGPT
- GPT
- Alibaba
---
# mPLUG-Owl2介绍
mPLUG-Owl2是一种面向多模态语言模型的模块化的训练范式。其能学习与语言空间相适应的视觉知识,并支持在多模态场景(支持图片、文本输入)下进行多轮对话。它涌现多图关系理解,场景文本理解和基于视觉的文档理解等能力。
## 模型描述
mPLUG-Owl2基于mPLUG-2模块化的思想,通过多阶段分别训练模型的视觉底座与语言模型,使其视觉知识能与预训练语言模型紧密协作,达到了显著优于主流多模态语言模型的效果。

|