aide开源 (AI-开源视觉语言模型-智谱-支持GUI图形界面问答-CogAgent)

文章编号:2865 更新时间:2024-01-13 分类:互联网资讯 阅读次数:

资讯内容

智谱AI开源了一个名为CogAgent的视觉语言模型,该模型具有180亿个参数规模。这个模型在GUI理解和导航方面表现出色,并在多个基准测试中取得了最新的通用性能。它还支持高分辨率的视觉输入和对话问答,并可以针对任意GUI截图进行问答。CogAgent模型可以通过上传截图进行任务推理,并返回计划、下一个动作以及具体操作的坐标信息。此外,CogAgent还支持OCR相关任务,并通过预训练和微调提高了其能力。如果您希望了解更多有关CogAgent的信息,可以访问以下链接

cogagent-chat:

aide开源AI开源视觉语言模型智谱

https://modelscope.cn/models/ZhipuAI/cogagent-chat/summary

cogagent-vqa:

https://www.modelscope.cn/models/ZhipuAI/cogagent-vqa/summary

标签: 开源视觉语言模型CogAgent支持GUI图形界面问答AI智谱

本文地址: https://yihaiquanyi.com/article/c0aee08138a26adb2edb.html

上一篇:谷歌AI大模型概念股龙头谷歌AI大模型聊天机...
下一篇:lcbm游戏LCM太好玩啦实时推理tldraw快速绘...

发表评论