Gemini ：是整个 Google 团队大规模协作努力的成果，它是从头开始构建的多模式，可以概括和无缝地理解、操作和组合不同类型的信息

“Gemini 是整个 Google 团队（包括 Google Research 的同事）大规模协作努力的成果。它是从头开始构建的多模式，这意味着它可以概括和无缝地理解、操作和组合不同类型的信息，包括文本、代码、音频、图像和视频”，Google DeepMind 首席执行官兼联合创始人 Demis Hassabis 介绍道。

根据 Google 透露，Gemini 现在能够在从数据中心到移动设备的所有设备上高效运行，其最先进的功能将显著增强开发人员和企业客户利用人工智能进行构建和扩展的方式。

当前，Google 带来了三种 Gemini 型号：

Gemini Ultra 是 Google 最强大的模型，被定位为 OpenAI 的 GPT-4 的竞争对手，也似乎是为数据中心和企业应用程序设计的。不过，该款模型将于明年推出。

Gemini Pro 是一款中端型号，能够击败 ChatGPT 的基准版本 GPT-3.5。与此同时，它将很快为许多 Google AI 服务提供支持，今天率先在 Bard 上应用。

Gemini Nano，这是一种专为在移动设备上运行而构建的更高效的模型。Pixel 8 Pro 手机用户现在就可以通过 Gemini Nano 获得一些新功能，如记录器应用程序中的摘要功能、Gboard 中的智能回复、视频功能、摄影和图像编辑方面的改进。

Gemini ：是整个 Google 团队大规模协作努力的成果，它是从头开始构建的多模式，可以概括和无缝地理解、操作和组合不同类型的信息插图

Gemini vs GPT-4

事实上，自去年 OpenAI 率先推出 ChatGPT，似乎关于 AI 领域的“风头”便被其占领了大半。显然，其他布局 AI 的各大科技公司对此并不甘落后，在自己发布新品时，也忍不住会和 OpenAI 的产品对比一番，Google 当然也不例外。

基于此，Google 发布了一份长达 60 的《Gemini: A Family of Highly Capable Multimodal Models》（https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf），进行了技术详解，也与 GPT-4、GPT-3.5 模型做了对比。

Gemini ：是整个 Google 团队大规模协作努力的成果，它是从头开始构建的多模式，可以概括和无缝地理解、操作和组合不同类型的信息插图1

其中，Google 运行了 32 个完整的基准测试来将 Gemini 与行业中先进的模型进行了比较，其中从广泛的整体测试（如多任务语言理解基准测试）到比较两个模型生成 Python 代码的能力。

值得一提的是，Gemini 的基础模型支持文本输入和文本输出，但更强大的 Gemini Ultra 可以处理图形、视频和音频。根据基准测试结果显示，从自然图像、音频和视频理解到数学推理，Gemini Ultra 的性能在大型语言模型 (LLM)研发中使用的 32 个广泛使用的学术基准中的 30 个上超过了 GPT-4。