北大提出一致的视觉言语大模型Chat

文章编号:3193 更新时间:2024-01-15 分类:互联网资讯 阅读次数:

资讯内容

站长之家(ChinaZ.com)11月29日信息:近日,北京大学和中山大学等机构的钻研者提出了一种名为Chat-UniVi的视觉言语大模型,成功了一致的视觉表征,使其能够同时处置图片和视频义务。这一框架的共同之处在于,它不只在深度学习义务中体现出色,而且仅需短短三天的训练期间,就能够训练出具有130亿参数的通用视觉言语大模型。

北大提出一致的视觉言语大模型Chat

名目地址:https://github.com/PKU-YuanGroup/Chat-UniVi

Chat-UniVi的外围方法是驳回灵活视觉token,经过最近邻的密度峰聚类算法来失掉这些灵活token。这一方法极大地缩小了视觉token的数量,降落了模型的训练和推理老本。钻研人员经过试验证明,Chat-UniVi在图片了解、视频了解、问答等多个义务中都体现出色,甚至在较小的参数量下也能逾越其余大型模型。

文章还具体引见了Chat-UniVi的训练环节,分为多模态预训练和联结指令微调两个阶段。这一两阶段的训练战略使得模型能够在混合数据集上启动训练,无需对模型结构启动修正,展现了其在多义务学习上的灵敏性和高效性。

Chat-UniVi的成功试验结果包含在图片了解、视频了解、问答等多个义务中都逾越了先进的方法。而其在幻觉评价上的优越性更是有目共睹,证明了驳回灵活视觉token和多尺度表征的有效性。

综合而言,Chat-UniVi的提出为视觉言语模型的钻研畛域带来了新的思绪,经过一致的视觉表征成功了对多模态数据的高效处置,为深度学习模型的训练和推理提供了愈加方便和经济的处置方案。

(揭发)

标签: 大模型

本文地址: https://yihaiquanyi.com/article/37fc2246727c1bd2842f.html

上一篇:一杯奶茶九元加两份珍珠两元一杯只要9块9上...
下一篇:plus会员先享后付太坑了Plus会员服务OpenAI...

发表评论