3和Midjourney！-实测暴打DALL·E-2退场-谷歌文生图之作Imagen

文章编号：3315 更新时间：2024-01-16 分类：互联网资讯 阅读次数：次

资讯内容

【新智元导读】卷疯了卷疯了，谷歌刚刚放出了文生图AI模型的之作，实测成果然切细腻，生成的美女图好像真人照片，关于提醒的恢复水平曾经战败了3和!文生图大模型这是要易主了?

提问:上方这张图，是AI生图还是照片?

假设不是这么问，绝大少数人大略都不会想到，这居然不是一张照片。

是的，只需在谷歌AI生图神器Imagen2中输入这样的提醒词——

就能失掉扫尾那张无比真切写实、对比片还像照片的图像了!

虽然圣诞节曾经邻近，但谷歌还在卷个不停——号称DALL·E3竞品的文生图模型Imagen2，终于重磅上线了。

刚用Gemini和OpenAI卷完GPT-4，立马又放出Imagen2来卷DALL·E3了，2023年底的「卷王」名称，谷歌是实至名归。

不只手指真切，而且拿筷子的姿态也很规范

可以说，Imagen2是目前文本转图像技术的之作，曾经打破了AI生图的界限。

在机器学习算法弱小配置的加持下，Imagen2可以将文本形容转换为活泼明晰的高分辨率图像。

Imagen2最异乎寻常之处在于，它能够以惊人的准确性，了解复杂笼统的概念，而后把这个概念可视化，细腻之水平令人惊叹!

Imagen2的外围，还是复杂的神经网络架构。经过微调的Transformer模型，在文本了解和图像分解上，都表现出了无与伦比的性能。

如今，在文生图畛域，谷歌又竖立了新的标杆。

用自然言语就能生图的模型，又多了一个

如今，除了DALL·E3之外，咱们又有了一个仅凭自然言语就能生图的模型!

相比之下，Midjourney必定用复杂、专业的提醒词，在易经常使用性上曾经被两位竞争者甩出了很远。

仅凭方便文本，就能生活多样化的复杂图像，这类AI生图模型关于内容创作的影响是极端深远的。

关于依赖视觉内容的行业来说，这彻底扭转了游戏规定，大大缩小了传统内容制造所需的期间，内容创作者可以以史无前例的速度，制造高质量的视觉成果。

同时，Imagen2还具备无与伦比的图像质量和多配置性。

Imagen2用到了谷歌进的文本到图像分散技术，生图质量、成果然切，而且和用户的提醒具备高度的分歧性。

要素在于，它是经常使用训练数据的自然散布来生成更真切的图像，而非驳回预先编程的样式。

可以看到，Imagen2的图像生成才干十分惊人。

无论是渲染盘根错节的景色、具体的物体，还是奇幻的场景，生成的图像都具备如此高的保真度，以致于它们可以与人类艺术家创作的图像相媲美，甚至间接逾越。

Smallcanvasoilpaintingofanorangeonachoppingboard.Lightispassingthroughorangesegments，castinganorangelightacrosspartofthechoppingboard.Thereisablueandwhiteclothinthebackground.Caustics，bouncelight，expressivebrushstrokes

一小幅油画，描画了摆放在砧板上的橙子。阳光穿过橙子的切片，柔和的橙色光线洒在砧板上。画的背景是一块蓝白相间的布，画面巧妙地捕捉了光的折射、反射成果，同时展现了画家富裕感情的笔触

有网友示意，看到Imagen的这张橙子图，真是让我大吃一惊。灯光穿过橙子后的投影，和提醒中形容的意境十分吻合!

有人用雷同的提醒，让DALL·E3生成了雷同的橙子油画图，成果比起Imagen3来说，确实弱了不少。

相似的，Midjourney生成的橙子，在实在感和意境层面，也要差上一截。

诗中意境，一键真切恢复

以往的「文本到图像」模型，理论是依据训练数据集的图像和题目中的具体消息，来生成与用户提醒婚配的图像的。

然而它们有一个bug:关于每张图像和配对的题目，在细节质量和准确性上或者会有很大差异。

为了协助创立更高质量和更准确的图像、更好地合乎用户的提醒，Imagen2的训练数据集中参与了更多形容，协助Imagen2学习不同的题目格调，并更好地理解宽泛的用户提醒。

这种图像题目配对，就有助于Imagen2更好地理解图像和文字之间的相关，大大提高了它对高低文和纤细差异的了解。

就比如，美国作家PhillisWheatley《晚间称誉诗》中的一句话「溪流潺潺，鸟儿啁啾，地面浮荡着它们混合的音乐」。

诗中绝美的意境，Imagen2把要点全抓住了。

"Softpurlthestreams，thebirdsrenewtheirnotes，Andthroughtheairtheirmingledmusicfloats."（AHymntotheEveningbyPhillisWheatley）

相比之下，Midjourney似乎关于文学形容的内容掌握还是短少一些，大略率会在图中智能参与一团体物。不过全体画面成果还是不错的。

而到了DALL·E3这里，它居然在图像上加了几行字，生成了一张「贺卡」?

在的小说《白鲸记》中，HermanMelville曾写下「构想一下大海的巧妙之处，最可怕的中央在于生物如何在水下滑行，却在大少数状况下不易发觉，并且诡谲地隐藏在最可恶的湛蓝颜色下」。

Imagen2也是很懂「陆地文学」的特点。

"Considerthesubtlenessofthesea，howitsmostdreadedcreaturesglideunderwater，unApparentforthemostpart，andtreacherouslyhiddenbeneaththeloveliesttintsofazure."（Moby-DickbyHermanMelville）

相比之下，Midjourney和DALL·E3一到深海，就瞬间就克苏鲁了起来……

Midjourney

儿童文学大家FrancesHodgsonBurnett所著的《秘密花园》中，对知更鸟有这样一句形容:

快看，Imagen2生成的这幅画，把常春藤、墙头、唱歌等隐藏的细节，悉数出现了进去。

"Therobinflewfromhisswingingsprayofivyontothetopofthewallandheopenedhisbeakandsangaloud，lovelytrill，merelytoshowoff.Nothingintheworldisquiteasadorablylovelyasarobinwhenheshowsoff-andtheyarenearlyalwaysdoingit."（TheSecretGardenbyFrancesHodgsonBurnett）

雷同的提醒词，Midjourney在实在感上还要差上几分。

而DALL·E3相比上方两家，就更逊色了，尤其在植物和羽毛的细节上。

格调复刻，轻易变换，更懂人类美学

不时以来，图像生成饱受诟病的疑问之一，便是人物的手指生成。

这次，Imagen2的数据集和模型提高，在许多畛域取得了改良。

其中就包括渲染真切的手部和人脸，以及坚持图像不受搅扰的视觉伪影。

同时，谷歌DeepMind依据人类对光线、取景、曝光、明晰度等特质的偏好，训练了一个专门的「图像美学模型」。

每张图像都被给予一个美学分数，这有助于调理Imagen2在其训练数据集中赋予人类偏好的图像更多的权重。

这样一来，就提高了Imagen2生成更高质量图像的才干。

经常使用提醒「花」的AI生成的图像，美学分数从低（左）到高(右)

Imagen2的分散技术提供了高度的灵敏性，使得更容易控制和调整图像的格调。

经过提供参考格调图像并联合文本提醒，可以训练Imagen2生成遵照相反格调的新图像。

经过经常使用参考图像和文本提醒，Imagen2可以更轻松地控制输入样式

更强的「修复」和「扩图」

此外，Imagen2还支持图像编辑配置，如「修复」（inpainting）和「扩图」(outpainting)。

经过提供参考图像和图像掩码，咱们可以用inpainting技术间接在原始图像中生成新内容。

在上方这幅原始图中，只需输入「绿色墙上有一个架子，架子上放着几本书和花瓶」，对应内容就在原图中生成了!

新内容毫不突兀，完美融入原图，浑然天成。

另外，咱们还可以经常使用outpainting配置，给原始图像扩图。

旭日下非洲大草原上长颈鹿和斑马的双人大头贴，一下子就扩成了全身照。

片面加持企业级场景，logo文案一键生成，中文也支持

如今，谷歌曾经Imagen2下放到开发者平台VertexAI。

在VertexAI平台上，客户可以经常使用直观的工具来自定义和部署Imagen2，享用片面治理的基础设备和内置的隐衷与安保包全。

在谷歌DeepMind的技术加持下，Imagen2在图像质量上成功了清楚优化，协助开发者依据特定需求发明图像，其中包括:

-依据自然言语的提醒生成高质量、真切、高分辨率且精巧的图像;

-支持多言语文本渲染，能够在图像中准确参与文本内容;

-可以设计公司或产品的Logo，并将其嵌入到图像中;

-提供视觉疑问解答配置，可以从图像中生成标注，或就图像细节提出的疑问给出具备消息性的文本回答。

高质量图像:借助于改良的图像和文本了解，以及多种翻新的训练和建模技术，Imagen2能够生成精准、高质量且真切的图像。

文本渲染支持:可以依据提醒内容，精准地渲染出正确的文本。

Imagen2可以在生成含有特定文字或短语的物体图像时，确保输入图像中蕴含正确短语。

Logo设计:Imagen2能为品牌、产品等生成多种创意和真切的Logo，比如徽章、字母甚至十分笼统的Logo。

标注和问答:应用增强的图像了解才干，Imagen2能够创立具体的长文标注，并对图像内元素提出的疑问给出具体答案。

多言语提醒:除了英语，Imagen2还支持其余6种言语（中文、印地语、日语、韩语、葡萄牙语、西班牙语），并方案在2024年终参与更多言语。这项配置还包括提醒与输入之间的翻译才干，比如，可以用西班牙语提醒，但指定输入为葡萄牙语。

图像加水印，生成更安保

为了协助降落文本到图像生成技术的潜在危险和应战，谷歌从设计和开发到产品部署都设置了弱小的护栏。

Imagen2集成了SynthID——用于加水印和识别AI生成内容的工具包。

这样，GoogleCloud平台的客户可以间接在图像中参与数字水印，同时不会降落图像质量。

不过，即使在对图像启动过滤、裁剪或经常使用有损紧缩方案保留后，SynthID依然可以检测出。

除此之外，在向一切用户推出之前，谷歌会启动弱小的安保测试，以限制地降落损伤危险。

从一开局，谷歌团队就投入对Imagen2的数据安保训练，并参与了技术护栏来限制有疑问的输入，如暴力、触犯或色情内容。

同时，谷歌还对训练数据、输入提醒和系统生成的输入启动安保审核。比如正在运行片面的安保过滤器，以防止生成名人图像等有潜在疑问的内容。

网友惊呼:真·文生图模型来了!

GoogleDeepMind钻研副总裁兼深度学习主管OriolVinyals尝试用Imagen2为Gemini生成徽标。

另一位谷歌迷信家用Imagen2生成的图像如下。

上方是一只网友实测生成的蓝猫。

有网友以为，Imagen2是同类产品中的。就像GeminiUltra一样，看手和文字就足够了。

不过，他还吐槽了谷歌不向一切人开明产品的疑问。

「像平常一样，谷歌发表了一款大少数人不可经常使用的产品，这有什么意义?!」

参考资料:

https://deepmind.google/technologies/imagen-2/

https://cloud.google.com/blog/products/ai-machine-learning/imagen-2-on-vertex-ai-is-now-generally-available

（揭发）

标签： DALL·E、 Midjourney、 Imagen2、

本文地址： https://yihaiquanyi.com/article/89ece6ac2375b065bab0.html

上一篇：魅族未来的趋势魅族未来3年将落地1000核心...
下一篇：s24加强S24或增加5倍变焦Ultra保持10倍变焦...

3和Midjourney！-实测暴打DALL·E-2退场-谷歌文生图之作Imagen

资讯内容

发表评论

热门文章

站点推荐