魔搭科技公司 (魔搭社区开源多模态对齐统一框架OneLLM)

文章编号：2886 更新时间：2024-01-13 分类：互联网资讯 阅读次数：次

站长之家(ChinaZ.com)12月22日消息: OneLLM是一种多模态对齐的统一框架，它使用通用编码器和统一的投影模块与LLM（LargeLanguageModel）对齐多模态输入。OneLLM还通过使用modalitytokens实现了在不同模态之间的切换。

OneLLM的核心组件包括多模态token的tokenizer、通用编码器、统一的投影模块和大语言模型。

多模态token的tokenizer将输入的各种模态信号转换为token序列，以便进行后续处理和对齐。

通用编码器是在LAION（LanguageandAION）平台上训练的CLIPVITLarge模型，它具有强大的语义理解能力，可以对多模态输入进行编码。

统一的投影模块（UPM）是将各个模态的输入投影到LLM的embedding向量空间中，以实现多模态的对齐。UPM由K个投影专家组成，每个专家包含多个transformers块和大量的参数。

大语言模型是OneLLM采用的开源LLaMA2-7B模型，它在大规模文本数据上进行了预训练，可以对输入进行更深入的语义理解和生成。

OneLLM支持多种不同模态数据的理解，包括图像、音频、视频、点云、深度/法线图、IMU和fMRI大脑活动。

实验证明，OneLLM在视频-文本、音频-视频-文本、音频-文本等任务中优于现有方法，表现出了较强的零样本能力。

Github代码链接:

HTTPS://github.com/csuhan/OneLLM

模型权重链接:

模型创空间:

（举报）

标签：魔搭社区开源多模态对齐统一框架OneLLM、

上一篇：保时捷的sim卡可以换自己的卡吗换壳保时捷...
下一篇：腾讯混元大模型下载腾讯混元大模型率先通过...