【新智元导读】卷疯了卷疯了,谷歌刚刚放出了文生图AI模型的之作,实测成果然切细腻,生成的美女图好像真人照片,关于提醒的恢复水平曾经战败了3和!文生图大模型这是要易主了?
提问:上方这张图,是AI生图还是照片?
假设不是这么问,绝大少数人大略都不会想到,这居然不是一张照片。
是的,只需在谷歌AI生图神器Imagen2中输入这样的提醒词——
就能失掉扫尾那张无比真切写实、对比片还像照片的图像了!
虽然圣诞节曾经邻近,但谷歌还在卷个不停——号称DALL·E3竞品的文生图模型Imagen2,终于重磅上线了。
刚用Gemini和OpenAI卷完GPT-4,立马又放出Imagen2来卷DALL·E3了,2023年底的「卷王」名称,谷歌是实至名归。
不只手指真切,而且拿筷子的姿态也很规范
可以说,Imagen2是目前文本转图像技术的之作,曾经打破了AI生图的界限。
在机器学习算法弱小配置的加持下,Imagen2可以将文本形容转换为活泼明晰的高分辨率图像。
Imagen2最异乎寻常之处在于,它能够以惊人的准确性,了解复杂笼统的概念,而后把这个概念可视化,细腻之水平令人惊叹!
Imagen2的外围,还是复杂的神经网络架构。经过微调的Transformer模型,在文本了解和图像分解上,都表现出了无与伦比的性能。
如今,在文生图畛域,谷歌又竖立了新的标杆。
用自然言语就能生图的模型,又多了一个
如今,除了DALL·E3之外,咱们又有了一个仅凭自然言语就能生图的模型!
相比之下,Midjourney必定用复杂、专业的提醒词,在易经常使用性上曾经被两位竞争者甩出了很远。
仅凭方便文本,就能生活多样化的复杂图像,这类AI生图模型关于内容创作的影响是极端深远的。
关于依赖视觉内容的行业来说,这彻底扭转了游戏规定,大大缩小了传统内容制造所需的期间,内容创作者可以以史无前例的速度,制造高质量的视觉成果。
同时,Imagen2还具备无与伦比的图像质量和多配置性。
Imagen2用到了谷歌进的文本到图像分散技术,生图质量、成果然切,而且和用户的提醒具备高度的分歧性。
要素在于,它是经常使用训练数据的自然散布来生成更真切的图像,而非驳回预先编程的样式。
可以看到,Imagen2的图像生成才干十分惊人。
无论是渲染盘根错节的景色、具体的物体,还是奇幻的场景,生成的图像都具备如此高的保真度,以致于它们可以与人类艺术家创作的图像相媲美,甚至间接逾越。
Smallcanvasoilpaintingofanorangeonachoppingboard.Lightispassingthroughorangesegments,castinganorangelightacrosspartofthechoppingboard.Thereisablueandwhiteclothinthebackground.Caustics,bouncelight,expressivebrushstrokes
一小幅油画,描画了摆放在砧板上的橙子。阳光穿过橙子的切片,柔和的橙色光线洒在砧板上。画的背景是一块蓝白相间的布,画面巧妙地捕捉了光的折射、反射成果,同时展现了画家富裕感情的笔触
有网友示意,看到Imagen的这张橙子图,真是让我大吃一惊。灯光穿过橙子后的投影,和提醒中形容的意境十分吻合!
有人用雷同的提醒,让DALL·E3生成了雷同的橙子油画图,成果比起Imagen3来说,确实弱了不少。
相似的,Midjourney生成的橙子,在实在感和意境层面,也要差上一截。
诗中意境,一键真切恢复
以往的「文本到图像」模型,理论是依据训练数据集的图像和题目中的具体消息,来生成与用户提醒婚配的图像的。
然而它们有一个bug:关于每张图像和配对的题目,在细节质量和准确性上或者会有很大差异。
为了协助创立更高质量和更准确的图像、更好地合乎用户的提醒,Imagen2的训练数据集中参与了更多形容,协助Imagen2学习不同的题目格调,并更好地理解宽泛的用户提醒。
这种图像题目配对,就有助于Imagen2更好地理解图像和文字之间的相关,大大提高了它对高低文和纤细差异的了解。
就比如,美国作家PhillisWheatley《晚间称誉诗》中的一句话「溪流潺潺,鸟儿啁啾,地面浮荡着它们混合的音乐」。
诗中绝美的意境,Imagen2把要点全抓住了。
"Softpurlthestreams,thebirdsrenewtheirnotes,Andthroughtheairtheirmingledmusicfloats."(AHymntotheEveningbyPhillisWheatley)
相比之下,Midjourney似乎关于文学形容的内容掌握还是短少一些,大略率会在图中智能参与一团体物。不过全体画面成果还是不错的。
而到了DALL·E3这里,它居然在图像上加了几行字,生成了一张「贺卡」?
在的小说《白鲸记》中,HermanMelville曾写下「构想一下大海的巧妙之处,最可怕的中央在于生物如何在水下滑行,却在大少数状况下不易发觉,并且诡谲地隐藏在最可恶的湛蓝颜色下」。
Imagen2也是很懂「陆地文学」的特点。
"Considerthesubtlenessofthesea,howitsmostdreadedcreaturesglideunderwater,unApparentforthemostpart,andtreacherouslyhiddenbeneaththeloveliesttintsofazure."(Moby-DickbyHermanMelville)
相比之下,Midjourney和DALL·E3一到深海,就瞬间就克苏鲁了起来……
Midjourney
儿童文学大家FrancesHodgsonBurnett所著的《秘密花园》中,对知更鸟有这样一句形容:
快看,Imagen2生成的这幅画,把常春藤、墙头、唱歌等隐藏的细节,悉数出现了进去。
"Therobinflewfromhisswingingsprayofivyontothetopofthewallandheopenedhisbeakandsangaloud,lovelytrill,merelytoshowoff.Nothingintheworldisquiteasadorablylovelyasarobinwhenheshowsoff-andtheyarenearlyalwaysdoingit."(TheSecretGardenbyFrancesHodgsonBurnett)
雷同的提醒词,Midjourney在实在感上还要差上几分。
而DALL·E3相比上方两家,就更逊色了,尤其在植物和羽毛的细节上。
格调复刻,轻易变换,更懂人类美学
不时以来,图像生成饱受诟病的疑问之一,便是人物的手指生成。
这次,Imagen2的数据集和模型提高,在许多畛域取得了改良。
其中就包括渲染真切的手部和人脸,以及坚持图像不受搅扰的视觉伪影。
同时,谷歌DeepMind依据人类对光线、取景、曝光、明晰度等特质的偏好,训练了一个专门的「图像美学模型」。
每张图像都被给予一个美学分数,这有助于调理Imagen2在其训练数据集中赋予人类偏好的图像更多的权重。
这样一来,就提高了Imagen2生成更高质量图像的才干。
经常使用提醒「花」的AI生成的图像,美学分数从低(左)到高(右)
Imagen2的分散技术提供了高度的灵敏性,使得更容易控制和调整图像的格调。
经过提供参考格调图像并联合文本提醒,可以训练Imagen2生成遵照相反格调的新图像。
经过经常使用参考图像和文本提醒,Imagen2可以更轻松地控制输入样式
更强的「修复」和「扩图」
此外,Imagen2还支持图像编辑配置,如「修复」(inpainting)和「扩图」(outpainting)。
经过提供参考图像和图像掩码,咱们可以用inpainting技术间接在原始图像中生成新内容。
在上方这幅原始图中,只需输入「绿色墙上有一个架子,架子上放着几本书和花瓶」,对应内容就在原图中生成了!
新内容毫不突兀,完美融入原图,浑然天成。
另外,咱们还可以经常使用outpainting配置,给原始图像扩图。
旭日下非洲大草原上长颈鹿和斑马的双人大头贴,一下子就扩成了全身照。
片面加持企业级场景,logo文案一键生成,中文也支持
如今,谷歌曾经Imagen2下放到开发者平台VertexAI。
在VertexAI平台上,客户可以经常使用直观的工具来自定义和部署Imagen2,享用片面治理的基础设备和内置的隐衷与安保包全。
在谷歌DeepMind的技术加持下,Imagen2在图像质量上成功了清楚优化,协助开发者依据特定需求发明图像,其中包括:
-依据自然言语的提醒生成高质量、真切、高分辨率且精巧的图像;
-支持多言语文本渲染,能够在图像中准确参与文本内容;
-可以设计公司或产品的Logo,并将其嵌入到图像中;
-提供视觉疑问解答配置,可以从图像中生成标注,或就图像细节提出的疑问给出具备消息性的文本回答。
高质量图像:借助于改良的图像和文本了解,以及多种翻新的训练和建模技术,Imagen2能够生成精准、高质量且真切的图像。
文本渲染支持:可以依据提醒内容,精准地渲染出正确的文本。
Imagen2可以在生成含有特定文字或短语的物体图像时,确保输入图像中蕴含正确短语。
Logo设计:Imagen2能为品牌、产品等生成多种创意和真切的Logo,比如徽章、字母甚至十分笼统的Logo。
标注和问答:应用增强的图像了解才干,Imagen2能够创立具体的长文标注,并对图像内元素提出的疑问给出具体答案。
多言语提醒:除了英语,Imagen2还支持其余6种言语(中文、印地语、日语、韩语、葡萄牙语、西班牙语),并方案在2024年终参与更多言语。这项配置还包括提醒与输入之间的翻译才干,比如,可以用西班牙语提醒,但指定输入为葡萄牙语。
图像加水印,生成更安保
为了协助降落文本到图像生成技术的潜在危险和应战,谷歌从设计和开发到产品部署都设置了弱小的护栏。
Imagen2集成了SynthID——用于加水印和识别AI生成内容的工具包。
这样,GoogleCloud平台的客户可以间接在图像中参与数字水印,同时不会降落图像质量。
不过,即使在对图像启动过滤、裁剪或经常使用有损紧缩方案保留后,SynthID依然可以检测出。
除此之外,在向一切用户推出之前,谷歌会启动弱小的安保测试,以限制地降落损伤危险。
从一开局,谷歌团队就投入对Imagen2的数据安保训练,并参与了技术护栏来限制有疑问的输入,如暴力、触犯或色情内容。
同时,谷歌还对训练数据、输入提醒和系统生成的输入启动安保审核。比如正在运行片面的安保过滤器,以防止生成名人图像等有潜在疑问的内容。
网友惊呼:真·文生图模型来了!
GoogleDeepMind钻研副总裁兼深度学习主管OriolVinyals尝试用Imagen2为Gemini生成徽标。
另一位谷歌迷信家用Imagen2生成的图像如下。
上方是一只网友实测生成的蓝猫。
有网友以为,Imagen2是同类产品中的。就像GeminiUltra一样,看手和文字就足够了。
不过,他还吐槽了谷歌不向一切人开明产品的疑问。
「像平常一样,谷歌发表了一款大少数人不可经常使用的产品,这有什么意义?!」
参考资料:
https://deepmind.google/technologies/imagen-2/
https://cloud.google.com/blog/products/ai-machine-learning/imagen-2-on-vertex-ai-is-now-generally-available
(揭发)
标签: DALL·E、 Midjourney、 Imagen2、本文地址: https://yihaiquanyi.com/article/89ece6ac2375b065bab0.html
上一篇:魅族未来的趋势魅族未来3年将落地1000核心...