可通过文字生成连贯动作视频，谷歌推出 AI 扩散模型 Lumiere

1 月 29 日消息，谷歌研究院日前推出了一款名为 Lumiere 的“文生视频”扩散模型，主打采用自家最新开发的“Space-Time U-Net”基础架构，号称能够一次生成“完整、真实、动作连贯”的视频。

可通过文字生成连贯动作视频，谷歌推出 AI 扩散模型 Lumiere插图

▲ 图源谷歌官方新闻稿（下同）

谷歌表示，业界绝大多数“文生视频”模型无法生成时间长、质量佳、动作连贯逼真的内容，这是因为此类模型通常“分段生成视频”，首先产生几张关键帧，接着用“时间超级分辨率（Temporal Super-Resolution）”技术，生成关键帧之间的视频文件，这种方法虽然能够节省RAM，但难以生成“连贯逼真”的视频。

谷歌提到，他们的新模型 Lumiere 相对于业界模型最大的不同是采用了全新“Space-Time U-Net”基础架构，该架构能够在空间和时间上同时“降采样（Downsample）”信号，从而在“更紧凑的时空中进行更多运算”，令 Lumiere 生成持续时间更长、动作更连贯的视频。

注意到，Lumiere 一次可以生成 80 帧视频（16FPS 下 5 秒视频 / 24FPS下约3.34秒视频），虽然这一数据看起来很短，不过研究人员提到，5 秒视频长度实际上“已经超过大多数媒体作品中的平均镜头时长”。

可通过文字生成连贯动作视频，谷歌推出 AI 扩散模型 Lumiere插图1

除了应用“Space-Time U-Net”基础架构外，谷歌还介绍了 Lumiere 的基础特性，该 AI 建立在一个经过预先训练的“文生图”模型基础上，研究人员首先让基础模型生成视频分帧的基本像素草稿，接着通过空间超分辨率（SSR）模型，逐步提升分帧分辨率及细节，并利用“Multidiffusion”通用生成框架提升模型稳定性，从而保证了最终输出的视频一致性和连续性。

可通过文字生成连贯动作视频，谷歌推出 AI 扩散模型 Lumiere插图2

原文地址：https://www.ithome.com/0/747/760.htm

打赏赞

# AI资讯 # AI 模型 # Lumiere # 谷歌

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

可通过文字生成连贯动作视频，谷歌推出 AI 扩散模型 Lumiere

从 20 亿数据中学习物理世界，基于 Transformer 的通用世界模型成功挑战视频生成

xAI 融资 60 亿美元挑战 OpenAI？马斯克回应：假的

相关文章

暂无评论

星火内容运营大师

热门文章

热门标签

热门网址

可通过文字生成连贯动作视频，谷歌推出 AI 扩散模型 Lumiere

相关文章：

从 20 亿数据中学习物理世界，基于 Transformer 的通用世界模型成功挑战视频生成

xAI 融资 60 亿美元挑战 OpenAI？马斯克回应：假的

相关文章

暂无评论

星火内容运营大师

热门文章

热门标签

热门网址