epfl怎么样 (EPFL与苹果钻研人员开源4M-跨多种模态和义务训练多模态基础模型的人工智能框架)

文章编号:2418 更新时间:2023-12-30 分类:互联网资讯 阅读次数:

资讯内容

站长之家(ChinaZ.com)12月18日信息: 近日,瑞士洛桑联邦理工学院(EPFL)与苹果联手推出了一项名为"MassivelyMultimodalMaskedModeling"(4M)的人工智能框架,旨在处置训练跨多模态视觉基础模型的应战。虽然在自然言语处置畛域,训练大型言语模型(LLMs)曾经取得了清楚成功,但在视觉畛域,仍须要构建能够灵敏处置多种输入模态和输入义务的模型。

epfl怎么样EPFL与苹果钻研人员开源4

4M框架驳回了一种共同的战略,经过训练繁多的Transformer编码器-解码器,具有多模态的掩码建模指标。"MassivelyMultimodalMaskedModeling"强调了该方法在裁减到多种各异模态方面的才干。这一方法融合了掩码建模和多模态学习的特性,包含弱小的跨模态预测编码才干、共享场景示意以及经过迭代抽样成功生成义务的才干。

不只如此,4M在坚持高效性的同时,经过模态特定的标志器将各种格式的输入模态转换为团圆标志的汇合或序列,使得繁多的Transformer可以同时处置文本、边界框、图片或神经网络特色等多种输入模态,成功它们的一致示意畛域。

此外,4M驳回了输入和指标掩码的模式,即从一切模态随机选用一小局部标志作为模型输入,另一小局部作为指标。经过将输入和指标标志的数量与模态数量解耦,防止了随着模态数量参与而造成的计算老本极速回升。经过应用CC12M和其余可用的单模态或文本-图片对数据集,经常使用弱小的伪标签网络创立模态对齐的绑定数据,4M在不须要多模态/多义务注释的状况下,可以在不同且大规模的数据集上启动训练。

钻研人员发现,4M模型不只在多个关键的视觉义务上体现出色,而且可以启动精细调整以在未来的义务和输入模态上取得清楚成绩。为了训练可导向的生成模型,可以依据任何模态启动条件化,必定经常使用多模态的掩码建模指标。经过对4M性能影响的深化消融剖析,结合该方法的简便性和通用性,钻研人员以为4M在许多视觉义务和未来开展中具有渺小的后劲。

名目体验网址:https://4m.epfl.ch/

文章网址:https://arxiv.org/abs/2312.06647

(揭发)

标签: 4MAI框架

本文地址: https://yihaiquanyi.com/article/67da25212d6a172f7e77.html

上一篇:朋友圈的雪比外面大的说说朋友圈的雪看雪中...
下一篇:头条收益拆解是真的吗头条收益拆解一篇头条...

发表评论