北大提出一致的视觉言语大模型Chat

文章编号：3193 更新时间：2024-01-15 分类：互联网资讯 阅读次数：次

资讯内容

站长之家（ChinaZ.com）11月29日信息:近日，北京大学和中山大学等机构的钻研者提出了一种名为Chat-UniVi的视觉言语大模型，成功了一致的视觉表征，使其能够同时处置图片和视频义务。这一框架的共同之处在于，它不只在深度学习义务中体现出色，而且仅需短短三天的训练期间，就能够训练出具有130亿参数的通用视觉言语大模型。

名目地址:https://github.com/PKU-YuanGroup/Chat-UniVi

Chat-UniVi的外围方法是驳回灵活视觉token，经过最近邻的密度峰聚类算法来失掉这些灵活token。这一方法极大地缩小了视觉token的数量，降落了模型的训练和推理老本。钻研人员经过试验证明，Chat-UniVi在图片了解、视频了解、问答等多个义务中都体现出色，甚至在较小的参数量下也能逾越其余大型模型。

文章还具体引见了Chat-UniVi的训练环节，分为多模态预训练和联结指令微调两个阶段。这一两阶段的训练战略使得模型能够在混合数据集上启动训练，无需对模型结构启动修正，展现了其在多义务学习上的灵敏性和高效性。

Chat-UniVi的成功试验结果包含在图片了解、视频了解、问答等多个义务中都逾越了先进的方法。而其在幻觉评价上的优越性更是有目共睹，证明了驳回灵活视觉token和多尺度表征的有效性。

综合而言，Chat-UniVi的提出为视觉言语模型的钻研畛域带来了新的思绪，经过一致的视觉表征成功了对多模态数据的高效处置，为深度学习模型的训练和推理提供了愈加方便和经济的处置方案。

（揭发）

标签：大模型、

本文地址： https://yihaiquanyi.com/article/37fc2246727c1bd2842f.html

上一篇：一杯奶茶九元加两份珍珠两元一杯只要9块9上...
下一篇：plus会员先享后付太坑了Plus会员服务OpenAI...