站长之家(ChinaZ.com)12月22日消息: OneLLM是一种多模态对齐的统一框架,它使用通用编码器和统一的投影模块与LLM(LargeLanguageModel)对齐多模态输入。OneLLM还通过使用modalitytokens实现了在不同模态之间的切换。
OneLLM的核心组件包括多模态token的tokenizer、通用编码器、统一的投影模块和大语言模型。
多模态token的tokenizer将输入的各种模态信号转换为token序列,以便进行后续处理和对齐。
通用编码器是在LAION(LanguageandAION)平台上训练的CLIPVITLarge模型,它具有强大的语义理解能力,可以对多模态输入进行编码。
统一的投影模块(UPM)是将各个模态的输入投影到LLM的embedding向量空间中,以实现多模态的对齐。UPM由K个投影专家组成,每个专家包含多个transformers块和大量的参数。
大语言模型是OneLLM采用的开源LLaMA2-7B模型,它在大规模文本数据上进行了预训练,可以对输入进行更深入的语义理解和生成。
OneLLM支持多种不同模态数据的理解,包括图像、音频、视频、点云、深度/法线图、IMU和fMRI大脑活动。
实验证明,OneLLM在视频-文本、音频-视频-文本、音频-文本等任务中优于现有方法,表现出了较强的零样本能力。
Github代码链接:
HTTPS://github.com/csuhan/OneLLM
模型权重链接:
模型创空间:
(举报)
标签: 魔搭社区开源多模态对齐统一框架OneLLM、本文地址: https://yihaiquanyi.com/article/933250b1f6a1a60109d7.html
上一篇:保时捷的sim卡可以换自己的卡吗换壳保时捷...