Loading...

Gemini :是整个 Google 团队大规模协作努力的成果,它是从头开始构建的多模式,可以概括和无缝地理解、操作和组合不同类型的信息

AI大模型2个月前发布 阿强
27 0

是整个 团队(包括 Google Research 的同事)大规模协作努力的成果。它是从头开始构建的多模式,这意味着它可以概括和无缝地理解、操作和组合不同类型的信息,包括文本、代码、音频、图像和视频”,Google 首席执行官兼联合创始人 Demis Hassabis 介绍道。

根据 Google 透露,Gemini 现在能够在从数据中心到移动设备的所有设备上高效运行,其最先进的功能将显著增强开发人员和企业客户利用进行构建和扩展的方式。

当前,Google 带来了三种 Gemini 型号:

Gemini Ultra 是 Google 最强大的模型,被定位为 的竞争对手,也似乎是为数据中心和企业应用程序的。不过,该款模型将于明年推出。

Gemini Pro 是一款中端型号,能够击败 的基准版本 GPT-3.5。与此同时,它将很快为许多 Google 服务提供支持,今天率先在 Bard 上应用。

Gemini Nano,这是一种专为在移动设备上运行而构建的更高效的模型。Pixel 8 Pro 手机用户现在就可以通过 Gemini Nano 获得一些新功能,如记录器应用程序中的摘要功能、Gboard 中的智能回复、视频功能、摄影和图像编辑方面的改进。

Gemini :是整个 Google 团队大规模协作努力的成果,它是从头开始构建的多模式,可以概括和无缝地理解、操作和组合不同类型的信息插图

Gemini vs GPT-4

事实上,自去年 OpenAI 率先推出 ChatGPT,似乎关于 AI 领域的“风头”便被其占领了大半。显然,其他布局 AI 的各大科技公司对此并不甘落后,在自己发布新品时,也忍不住会和 OpenAI 的产品对比一番,Google 当然也不例外。

基于此,Google 发布了一份长达 60 的《Gemini: A Family of Highly Capable Multimodal Models》(https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf),进行了技术详解,也与 GPT-4、GPT-3.5 模型做了对比。

Gemini :是整个 Google 团队大规模协作努力的成果,它是从头开始构建的多模式,可以概括和无缝地理解、操作和组合不同类型的信息插图1

其中,Google 运行了 32 个完整的基准测试来将 Gemini 与行业中先进的模型进行了比较,其中从广泛的整体测试(如多任务语言理解基准测试)到比较两个模型生成 Python 代码的能力。

值得一提的是,Gemini 的基础模型支持文本输入和文本输出,但更强大的 Gemini Ultra 可以处理图形、视频和音频。根据基准测试结果显示,从自然图像、音频和视频理解到数学推理,Gemini Ultra 的性能在大型语言模型 (LLM)研发中使用的 32 个广泛使用的学术基准中的 30 个上超过了 GPT-4。

Gemini :是整个 Google 团队大规模协作努力的成果,它是从头开始构建的多模式,可以概括和无缝地理解、操作和组合不同类型的信息插图2

整体来看,Gemini Ultra 的得分高达 90.0%,是第一个在 MMLU(大规模多任务语言理解)上超越人类专家的模型,该模型结合了数学、物理、历史、法律、医学和伦理学等 57 个科目来测试知识和解决问题的能力。

其中,Google 使用新的 MMLU 基准方法使 Gemini 能够利用其推理能力在回答难题之前更仔细地思考,从而比仅使用第一印象有显著改进。

此外,Gemini Ultra 还在新的 MMMU 基准测试中取得了 59.4% 的最先进分数,该基准测试由跨越不同领域、需要深思熟虑的推理的多模态任务组成。

根据 Google 测试的图像基准,Gemini Ultra 的性能优于以前最先进的模型,无需从图像中提取文本以进行进一步处理的对象字符识别 (OCR) 系统的帮助。这些基准凸显了Gemini天生的多模态性,并表明了Gemini更复杂推理能力的早期迹象。

Gemini :是整个 Google 团队大规模协作努力的成果,它是从头开始构建的多模式,可以概括和无缝地理解、操作和组合不同类型的信息插图3

多模态 Gemini 的优势

综上也不难看出,Gemini 模型的优势便体现在多模态维度上。

“我们将 Gemini 设计为原生多模式,从一开始就针对不同模式进行了预训练。然后我们使用额外的多模态数据对其进行微调,以进一步完善其有效性。这有助于 Gemini 从头开始无缝地理解和推理各种输入,远远优于现有的多模式模型 – 而且其功能几乎在每个领域都是最先进的”,Google 在公告中写道。

Gemini :https://deepmind.google/technologies/gemini/

Gemini :是整个 Google 团队大规模协作努力的成果,它是从头开始构建的多模式,可以概括和无缝地理解、操作和组合不同类型的信息插图4

点进进入: Gemini 1.0 演示视频

Gemini :是整个 Google 团队大规模协作努力的成果,它是从头开始构建的多模式,可以概括和无缝地理解、操作和组合不同类型的信息插图5
    © 版权声明

    相关文章

    暂无评论

    暂无评论...