智源研究院开源18种语言 (智源研究院开源发布新一代生成式多模态基础模型-Emu2)

文章编号:2746 更新时间:2024-01-12 分类:互联网资讯 阅读次数:

资讯内容

这篇本文介绍了智源研究院发布的新一代多模态基础模型Emu2。Emu2通过大规模自回归生成式多模态预训练,实现了多模态上下文学习能力的突破。

智源研究院开源18种语言智源研究院开源发布

本文指出,在少样本多模态理解任务上,Emu2表现出色,超越了主流多模态预训练大模型Flamingo-80B和IDEFICS-80B。在多个少样本理解、视觉问答、主体驱动图像生成任务上,如VQAv2、OKVQA、MSVD、MM-Vet、TouchStone等,Emu2均取得了令人满意的性能。

Emu2是目前开源的生成式多模态模型,基于Emu2微调的Emu2-Chat和Emu2-Gen模型分别是目前开源的性能最佳的视觉理解模型和能力最广的视觉生成模型。Emu2-Chat可以准确理解图文指令,实现更好的信息感知、意图理解和决策规划。Emu2-Gen可以接受图像、文本、位置交错的序列作为输入,实现灵活、可控、高质量的图像和视频生成。

Emu2使用了更简单的建模框架,并训练了能从编码器语义空间重建图像的解码器,将模型规模化到37B参数。Emu2采用大量图像、文本、视频的序列,建立了基于统一自回归建模的多模态预训练框架,将图像、视频等模态的token序列与文本token序列交错输入模型进行训练。

通过对多模态理解和生成能力的评测,Emu2在少样本理解、视觉问答、主体驱动图像生成等任务上取得了优秀的性能。与Flamingo-80B相比,在16-shotTextVQA等场景下,Emu2的性能超过了12.7个点。在DreamBench主体驱动图像生成测试中,Emu2相较之前的方法也显著提升。

Emu2具备全面且强大的多模态上下文学习能力,可以灵活完成多种理解和生成任务。Emu2-Chat经过对话数据指令微调,可以准确理解图文指令,完成多模态理解任务。Emu2-Gen可以接受任意prompt序列作为输入,生成高质量的图像和视频。

Emu2的训练方法是在多模态序列中进行生成式预训练,使用统一的自回归建模方式。相比于Emu1,Emu2采用了更简单的建模框架,训练了更好的解码器,并将模型规模化到37B参数。

(举报)

标签: Emu2智源研究院开源发布新一代生成式多模态基础模型

本文地址: https://yihaiquanyi.com/article/b9299eb2bf1145b72210.html

上一篇:乌龙茶的产地有福建广东还有哪个地方还有哪...
下一篇:暴雪新婚暴雪复婚希望大增国服回归还早呢网...

发表评论