字节跳动与中金公司哪个好 (字节跳动与中科大联手提出多模态文档大模型DocPedia)

文章编号：3489 更新时间：2024-01-17 分类：互联网资讯 阅读次数：次

资讯内容

站长之家（ChinaZ.com）12月4日信息: 字节跳动与中金公司哪个好字节跳动与中科大联字节跳动与中国迷信技术大学协作研发的多模态文档大模型DocPedia已成功打破了分辨率的极限，到达了2560×2560的高分辨率。这一成绩是经过钻研团队驳回了一种新的方法，处置了现有模型在解析高分辨文档图像方面的无余。

在此钻研中，提出了DocPedia，一个高分辨率多模态文档大模型，与业内先进模型相比，其分辨率清楚提高，到达2560×2560，而其余模型的下限仅为336×336，不可解析高分辨率文档图像。

文章地址:HTTPs://arxiv.org/pdf/2311.11810.pdf

DocPedia的性能失掉了清楚优化，尤其在关键信息抽取和视觉问答方面的才干上。经过文章中的示例展现，DocPedia能够了解高分辨率文档图像和自然场景图像中的指令内容，并准确提取关系的图文信息。这包含了从图像中开掘车牌号、电脑性能等文本信息，甚至对手写文字的准确判别。

结合图像中的文本信息，DocPedia还可以应用其大模型推理才干，依据高低文剖析疑问，并回答图像中没有展现的裁减内容。

在DocPedia的训练环节中，钻研团队驳回了两个阶段的方法:预训练和微调。在预训练阶段，大言语模型的视觉编码器局部被优化，以使其输入与大言语模型对齐。这一阶段重要器重对感知才干的训练，包含文字和自然场景的感知。微调阶段触及整个模型的端到端优化，并驳回感知-了解结合训练战略，进一步提高了DocPedia的性能。

特意值得留意的是，DocPedia从频域的角度登程处置分辨率疑问。经过提取高分辨率文档图像的DCT系数矩阵，并在不损失图文信息的前提下启动空间分辨率下采样，经过级联的频域适配器进一步启动分辨率紧缩和特色提取。这种方法在将图像输入到视觉编码器之前，大大缩小了token数量，提高了效率。

总体而言，DocPedia在多模态文档大模型畛域取得了清楚的打破，其高分辨率和优化训练战略使其在各项测试基准上均体现出色。该钻研为推进多模态文档了解畛域的开展提供了有力的支持。

（揭发）

标签： DocPedia、

本文地址： https://yihaiquanyi.com/article/9cfe0f7addb60e30bf81.html

上一篇：2024年生男生女清宫图表最准确2024年生成式...
下一篇：医生建议饮食医生须要饮食联合静止140斤女...

发表评论