字节跳动与中金公司哪个好 (字节跳动与中科大联手提出多模态文档大模型DocPedia)

文章编号:3489 更新时间:2024-01-17 分类:互联网资讯 阅读次数:

资讯内容

站长之家(ChinaZ.com)12月4日信息: 字节跳动与中金公司哪个好字节跳动与中科大联 字节跳动与中国迷信技术大学协作研发的多模态文档大模型DocPedia已成功打破了分辨率的极限,到达了2560×2560的高分辨率。这一成绩是经过钻研团队驳回了一种新的方法,处置了现有模型在解析高分辨文档图像方面的无余。

在此钻研中,提出了DocPedia,一个高分辨率多模态文档大模型,与业内先进模型相比,其分辨率清楚提高,到达2560×2560,而其余模型的下限仅为336×336,不可解析高分辨率文档图像。

文章地址:https://arxiv.org/pdf/2311.11810./a>.pdf

DocPedia的性能失掉了清楚优化,尤其在关键信息抽取和视觉问答方面的才干上。经过文章中的示例展现,DocPedia能够了解高分辨率文档图像和自然场景图像中的指令内容,并准确提取关系的图文信息。这包含了从图像中开掘车牌号、电脑性能等文本信息,甚至对手写文字的准确判别。

结合图像中的文本信息,DocPedia还可以应用其大模型推理才干,依据高低文剖析疑问,并回答图像中没有展现的裁减内容。

在DocPedia的训练环节中,钻研团队驳回了两个阶段的方法:预训练和微调。在预训练阶段,大言语模型的视觉编码器局部被优化,以使其输入与大言语模型对齐。这一阶段重要器重对感知才干的训练,包含文字和自然场景的感知。微调阶段触及整个模型的端到端优化,并驳回感知-了解结合训练战略,进一步提高了DocPedia的性能。

特意值得留意的是,DocPedia从频域的角度登程处置分辨率疑问。经过提取高分辨率文档图像的DCT系数矩阵,并在不损失图文信息的前提下启动空间分辨率下采样,经过级联的频域适配器进一步启动分辨率紧缩和特色提取。这种方法在将图像输入到视觉编码器之前,大大缩小了token数量,提高了效率。

总体而言,DocPedia在多模态文档大模型畛域取得了清楚的打破,其高分辨率和优化训练战略使其在各项测试基准上均体现出色。该钻研为推进多模态文档了解畛域的开展提供了有力的支持。

(揭发)

标签: DocPedia

本文地址: https://yihaiquanyi.com/article/9cfe0f7addb60e30bf81.html

上一篇:2024年生男生女清宫图表最准确2024年生成式...
下一篇:医生建议饮食医生须要饮食联合静止140斤女...

发表评论