在沉寂九个月后推出了MidjourneyV6,这个文生图产品体现出的更细腻的细节处理,更强大的语言理解能力和更加不像AI的图片效果在过去几天引发一片惊呼。
作为一个闭源的模型产品,Midjourney的魔法配方并不为人所知,但就像OpenAI和Google一样它会在产品更新时发布官方技术公告,有心人还是可以从中一窥模型能力提升的技术原理。
而我们去扒了扒它透露的信息后,发现这次更新的意义远不止于大家晒的那一张张精美的图片上…….
Midjourneyv6生成,电影月光光心慌慌的假剧照,图片源自reddit
图片模型的突破,却靠的是语言模型能力?
Midjourneyv6作为一个文生图模型,此次改进的核心能力却来自其自然语言处理能力的提升。
这首先是对提示词理解的’跟随能力’的提升。在其官方文档中,这被称为promptfollowing。简单来说,这就是指系统对用户输入的提示词的理解和响应能力。通过增强这一能力,Midjourney现在能够更好地解析复杂的提示,无论是关键词、命令还是问题,都能够准确把握。
Midjourneyv6生成,电影疤面煞星的假剧照,图片源自reddit
第二个显著的更新是提示词的长度。用户现在可以输入更长的提示词。这一方面得益于上面提到的模型跟踪能力的增强,另外则依靠模型连贯性的提升。
所谓连贯性,用一个经典的故事就能解释。A问B:下午大扫除,你来吗?B说:我去!我不去!那么B的意思毫无疑问是不去,因为上文中的大扫除非常累,而B说的我去!在这里则表示惊讶,能够准确理解这个对话,就叫连贯性。它确保了模型在处理用户哪怕很复杂的指令输入时,也能够逻辑一致地响应。
Midjourneyv6生成,李奥纳多在网飞出演电视剧的海报,图片源自reddit
这两个自然语言能力上的改进,Midjourney具体是如何做的?
在跟随能力方面的改进,主要基于三个方面:
上下文管理,它通过分析上下文关系来更准确地理解用户意图;序列建模,利用循环神经网络(RNN)和长短时记忆网络(LSTM)来捕捉对话中的长期依赖;以及交互状态跟踪,它持续追踪用户的目标、意图和对话状态,以确保系统响应的连贯性。
这些改进看起来就像是一个大语言模型的进化中在做的事情。
但它毕竟是个文生图模型,也就是语言能力和图片能力结合的模型,这其实也给它在提升能力时带来了优势——与语言模型的对话产品形态总是涉及隐私与所属的问题不同,Midjourneyv6生成的图片目前来看,全部是公共资源。
也就是说你花钱买了服务以后,图片是公共的,模型会生成两份,你拿一份,V6的服务器(也就是V6discoard)也拿一份。那么Midjouney可以拿这些实战反过来加入到自己的预训练大模型中,继续训练模型以提高性能。
所以这还引出一个有意思的话题,如果文生图因此而能够源源不断拥有更高质量的数据来反哺到预训练阶段,而数据真的成为模型训练的决定性因素后,是不是文生图模型有可能训练出比大语言模型更强的语言能力?
在连贯性提升上其实就已经有一点这个味道。对于大语言模型来说,想要提高连贯性并不简单,涉及了多方面的因素。但是作为一个使用自然语言来生成图片的模型,事实上简化了过程,由于它不涉及与用户进行持续对话,因此无需应用束搜索等启发式算法,也无需处理自然语言生成中的后处理问题,如语法校正和风格调整。这种简化使得Midjourney在提高连贯性方面只需专注于核心任务,从而显著提升了其在理解和响应用户输入时的逻辑一致性。
懂视觉的模型能有更好的文字能力?
图像模型却靠语言能力突破,这其实已经不是次。此前同样引发一阵骚动的Dalle3,也是如此。作为OpenAI的模型,背靠ChatGPT,语言能力自然更强。
在对比了两者后我发现V6在语言理解上其实还是较DALL·E有一定差距。最明显的地方就在于适应性上。适应性代表系统在能适应不同用户的语言风格和表达方式,以及在面对新的或未见过的情
标签: Midjourney、本文地址: https://yihaiquanyi.com/article/445ca20967ea696b9143.html
上一篇:ollamagithubOllama支持多模态模型经常使用...