挑战OpenAI「Sora」中国发布首款文本描述生成影片AI模型

中国北京清华大学联合北京生数科技有限公司，27日发布文本描述生成影片的人工智能模型「Vidu」，这款由中国自行研发的产品以美国人工智能研究单位OpenAI今年2月发表的「Sora」为竞争标竿，目前Vidu能够一键生成长达16秒、画质1080P的高清影片内容。

央视新闻报导，清华大学教授、生数科技首席科学家朱军在中关村未来人工智能先锋论坛上进行现场展示，Vidu模型采用团队原创的Diffusion与Transformer融合的架构U-ViT，能够仿真真实物理世界，具有长时长、高一致性、高动态性的特性。

朱军表示，「Vidu与Sora一样，都抓住了视频生成的精髓──对现实世界物理规律的仿真，并且从文本到视频的转换是直接且连续的。」

朱军告诉央视新闻记者，Vidu团队在今年1月已实现4秒影片的生成，过去两个月，团队的原创技术路线已经走通，产品正以更快的速度迭代，「Vidu还能理解中国元素并生成视频，例如熊猫和龙等。」

虽然与Sora对外发布的可一键生成1分钟影片时长有差距，但德国汉堡大学多模态智能系统技术研究所所长张建伟评论称，「在Sora之后，这支团队可以在短时间内打造出这么明亮的产品，做出了可以说跟国际上平行的一些结果，非常令人鼓舞。」

央视新闻引述张建伟的观察，「更令人鼓舞的是自己研发的算法，这些人才的积累，这个是最珍贵的财富，而不是这个产品本身。」

挑战OpenAI「Sora」 中国发布首款文本描述生成影片AI模型