这篇本文介绍了一种名为PixelLLM的智能模型,旨在解决大型语言模型在细粒度定位和视觉-语言对齐方面的挑战。研究团队通过在语言模型的每个输出单词与像素位置之间建立密集对齐,成功地实现了对定位任务的精准处理。为了实现这一目标,他们在单词特征之上添加了一个微型多层感知器(MLP),使其能够回归到每个单词的像素位置。研究团队对PixelLLM进行了评估,应用于密集目标描述、位置条件描述和引用定位等视觉任务,并取得了令人瞩目的性能指标。这项研究成果为实现更精确的视觉-语言对齐和定位打开了新的可能性。
PixelLLM的整体架构包括图像编码器、提示编码器和提示特征提取器。它支持文本或可选的位置提示,除了图片输入。该模型通过使用本地化叙述数据集进行每个单词的本地化训练,能够适应各种视觉-语言任务,包括分割、位置条件字幕、引用定位和密集描述。研究团队对PixelLLM进行了评估,并展示了其在不同任务中的卓越性能。
这项研究成果为大型语言模型领域带来了重要进展,为实现更精确的视觉-语言对齐和定位提供了新的可能性。
项目体验网址:https://top.aibase.com/tool/pixelllm
本文网址:https://arxiv.org/abs/2312.09237
标签: 语言模型、 PixelLLM、 AI头条、本文地址: https://yihaiquanyi.com/article/966099feb86a82941dc0.html
上一篇:小米汽车技术大公开小米汽车技术发布会小米...