魔搭科技公司 (魔搭社区开源多模态对齐统一框架OneLLM)

文章编号:2886 更新时间:2024-01-13 分类:互联网资讯 阅读次数:

资讯内容

站长之家(ChinaZ.com)12月22日消息: OneLLM是一种多模态对齐的统一框架,它使用通用编码器和统一的投影模块与LLM(LargeLanguageModel)对齐多模态输入。OneLLM还通过使用modalitytokens实现了在不同模态之间的切换。

魔搭科技公司魔搭社区开源多模态对齐统一框架

OneLLM的核心组件包括多模态token的tokenizer、通用编码器、统一的投影模块和大语言模型

多模态token的tokenizer将输入的各种模态信号转换为token序列,以便进行后续处理和对齐。

通用编码器是在LAION(LanguageandAION)平台上训练的CLIPVITLarge模型,它具有强大的语义理解能力,可以对多模态输入进行编码。

统一的投影模块(UPM)是将各个模态的输入投影到LLM的embedding向量空间中,以实现多模态的对齐。UPM由K个投影专家组成,每个专家包含多个transformers块和大量的参数。

大语言模型是OneLLM采用的开源LLaMA2-7B模型,它在大规模文本数据上进行了预训练,可以对输入进行更深入的语义理解和生成

OneLLM支持多种不同模态数据的理解,包括图像、音频、视频、点云、深度/法线图、IMU和fMRI大脑活动。

实验证明,OneLLM在视频-文本、音频-视频-文本、音频-文本等任务中优于现有方法,表现出了较强的零样本能力。

Github代码链接:

https://github.com/csuhan/OneLLM

模型权重链接:

模型创空间:

(举报)

标签: 魔搭社区开源多模态对齐统一框架OneLLM

本文地址: https://yihaiquanyi.com/article/933250b1f6a1a60109d7.html

上一篇:保时捷的sim卡可以换自己的卡吗换壳保时捷...
下一篇:腾讯混元大模型下载腾讯混元大模型率先通过...

发表评论