AI 生成影片系统再加一！Google 的 Imagen Video 可将文字叙述转换为影片

继 Meta 推出文字生成影片工具 Make-A-Video 後，Google 也跟进，近日分享了公司研发的 AI 系统 Imagen Video，同样藉由 AI 将文字转换成影片。

Imagen Video 基於 Google 的图片生成系统 Imagen 之上。Imagen 与 DALL-E 2 类似，以扩散模型 diffusion model 来产生新数据，系统藉由学习如何「破坏」和「修复」已存在的资料样本，来创作出新作品。

Imagen Video 由 1400 万套影片和文字组合、6000 万套图片和文字组合，以及 LAION-400M 数据库来训练。系统可创造出带梵谷风格或水彩样式的影片。

较令人意外的是，Google 称系统具备 3 维空间概念，能创作出像无人机空中旋转的影片，或在不扭曲物体的状况下捕捉各种角度的画面。

Imagen Video 的另一项特点是可以在影片中呈现文字。Stable Diffusion 或 DALL-E2 在接收到「生成 logo」的指令时，都难以在生成的照片中呈现可阅读文字，但 Google 则表示他们的系统已可达成这项功能。

不过 Imagen Video 如同 Meta 的 Make-A-Video 一样存有许多限制，像画面模糊、动作不流畅、出现假影和噪音等问题。但 Google 表示这项 AI 系统，让他们离一个有高度可控制性，且具丰富知识的系统又再更进一步。

阿尔伯塔大学（University of Alberta AI）和机器学习助理教授 Matthew Guzdial 表示，Imagen Video 生成的作品画质仍模糊，因此不可能用作为动画，但他相信这套系统有加快动画作品产出的潜力。

而为了精进系统，Imagen Video 的团队计画与另一 Google 文字生成影片工具 Phenaki 的研发团队合作，希望能让系统生成 2 分多钟的影片。

Imagen Video 团队目前着重於改善影片的画质，而 Phenaki 团队则是专注於拉长影片长度，目前已可将一个段落的文字，转成具微电影般长度的影片。

Google 也与 Meta 一样，担心系统学习到有问题的内容，而生成具争议性的影片，因此在确保系统可安全使用之前，Google 并不会公开系统模型或开源程式码。

从 Meta 到 Google 可以看出文字生成影片工具的开发进度快速，或许不久後，大众也可如同 DALL·E 般，亲自体验这些系统的操作。