标签:
导读 谷歌推出了一种名为Lumiere的新人工智能模型,可以根据文本提示生成高质量视频。据谷歌称,Lumiere可以在视频中描绘真实、多样且连贯的运动
谷歌推出了一种名为Lumiere的新人工智能模型,可以根据文本提示生成高质量视频。
据谷歌称,Lumiere可以在视频中描绘真实、多样且连贯的运动,这被认为是视频合成的关键挑战。Lumiere使用称为Space-Time-U-Net或STUNet的扩散模型,该模型可以创建视频生成的空间和时间方面。与通过将各个帧拼接在一起创建视频的其他模型不同,Lumiere可以在单个过程中生成视频,从而产生更平滑、更自然的运动。
该模型本质上是根据文本提示创建一个基本框架,并预测对象在后续帧中将如何移动。Lumiere每秒最多可生成80帧,而稳定视频扩散每秒可生成25帧。
Lumiere网站显示了正在运行的模型的几个图块,您可以在此处查看。谷歌还分享了图像到视频生成的示例。
值得注意的是,Lumiere尚未可供公开测试。然而,它确实展示了谷歌创建可与现有平台相媲美的人工智能视频平台的潜力。您可以在这里了解更多信息。