gemini什么意思 (Gemini真能碾压GPT-谷歌祭出多模态-杀器)

文章编号：3502 更新时间：2024-01-17 分类：互联网资讯 阅读次数：次

Gemini是谷歌最新发布的多模态大模，被赋予了多个最佳能力，并与OpenAI的GPT-4进行了激烈的竞争。

Gemini分为Ultra、Pro、Nano三个尺寸，号称在各种人工智能考试中取得高分，并在展示视频中展示了其出色的听说读写能力和多种应用场景。

Ultra版本是最强大的版本，具有多模态能力、专业性和准确度，可以以图文和语音的形式进行输入和输出，并能够批改数学作业、指导运动员的动作和发力，甚至在大规模多任务语言理解测试中超过了人类专家。

目前，GeminiPro版可以供普通用户体验，已集成到谷歌的对话机器人Bard中；而GeminiNano版将置入谷歌智能手机Pixel8Pro，适用于在设备上执行任务；而GeminiUltra版则适用于高度复杂的任务，计划在明年年初对开发者和企业用户开放。

然而，有网友发现GeminiUltra的考试成绩使用的是谷歌自家的试卷，而彭博社也指出Gemini的展示视频不是实时的，这引发了一些质疑。

根据《元宇宙日爆》的测试数据显示，植入了GeminiPro模型的Bard在数学能力方面仍然存在理解错误，特别是在识图方面。

Gemini是谷歌从头开始构建的多模态人工智能大模型，虽然时间上落后于GPT-4，但谷歌以其能力对外推出，最强之处在于其多模态能力。

Gemini能够同时处理和解析文本、图像、音频、视频和代码等多种数据类型，用户可以将各种形式的信息输入给Gemini，它不仅能理解，还能分析并根据需求处理任务。

Gemini目前还处于1.0版，根据规模的不同分为Ultra、Pro和Nano三个版本。Ultra版本适用于高度复杂的任务，Pro版本专注于多任务处理，Nano版本适用于移动设备上的应用。这三个版本在多个基准测试中展现出超群的实力。

谷歌官方发布的宣传视频展示了Gemini超强的多模态能力，令人惊叹。

GeminiUltra的背后有谷歌发布的测试数据支撑，它在32个广泛用于测评大型语言模型的学术基准中，在30个基准上的性能超过了当前技术水平。

GeminiUltra在MMLU（大规模多任务语言理解）测试中以90.0%的得分超过了人类专家，该测试使用57个学科的组合来测试世界知识和解决问题的能力。Gemini在包括文本和编码在内的一系列基准测试中超越了当前的技术水平。

MMLU是一种针对大模型语言理解能力的测评，涵盖了初等数学、美国历史、计算机科学和法律等，难度覆盖高中水平到专家水平的人类知识。根据谷歌给出的测试结果，Gemini在理解复杂数据和执行任务方面将对GPT-4构成强有力的竞争。

由于Gemini从一开始就基于多模态训练，理论上能够理解文字、图片、语音、视频、代码等各种形态的信息，这给AI应用和使用场景带来了更多可能性。

例如在教育领域，借助GeminiUltra的多模态推理技能，可以理解凌乱的手写笔记，并发现学生解题时的错误步骤，然后给出正确的答案和解答过程。这将为教师提供一个高能的AI助手，而不是将教师取代。

GeminiUltra甚至展现出足球教练的素养，在视频理解与推理方面，能够分析运动员的动作和发力，并给出具体的改进建议。

标签： Gemini、 GPT、 4、

上一篇：出门问问旗下的酒店出门问问旗下AI数字人视...
下一篇：火山灰柱的物质主要来源火山灰柱达1000米印...