通义大模型2.1首尾帧生视频模型于4月17日开源,只需要提供2张图片作为首帧和尾帧,即可自动生成一段丝滑畅的高清视频。
这次开源的首尾帧技术,号称是:全球首个开源的百亿参数首尾帧生视频模型,让画面在起始与终点之间自然演变。它是基于Wan2.1文生视频14B大模型,首尾帧生视频模型支持生成时长5秒的720p高清视频。
开源模型下载地址:
✅Githubhttps://github.com/Wan-Video/Wan2.1
✅Hugging Facehttps://huggingface.co/Wan-AI/Wan2.1-FLF2V-14B-720P
✅Modelscopehttps://www.modelscope.cn/models/Wan-AI/Wan2.1-FLF2V-14B-720P
为方便普通用户体验,已经在通义万相官网上线。
地址:https://tongyi.aliyun.com/wanxiang/videoCreation
接下来,我就以几个实例来带大家体验一下通义大模型2.1首尾帧生视频模型。
作为演示实例,我先使用即梦AI生成3组图片共6张,再使用通义万相图生视频2.0首尾帧功能生成视频。
一、图片生成
第一组、地下祭坛
1、宏大的地下祭坛,穹顶倾泻下直径十米的金色光柱,光斑中悬浮着刻满符文的悬浮立方体。采用电影《银翼杀手2049》的极简美学风格,暗部保留丰富细节,光束中可见尘埃粒子运动轨迹。超广角俯拍镜头,影视级光线渲染,32K分辨率,暗黑金属质感,末日废土氛围。(备注:提示词由DeepSeek生成)
2、宏大的地下祭坛,9名身着黑袍的神秘人背对镜头站成笔直队列,脚下延伸出细长的影子。头顶穹顶倾泻下直径十米的金色光柱,光斑中悬浮着刻满符文的悬浮立方体。采用电影《银翼杀手2049》的极简美学风格,暗部保留丰富细节,光束中可见尘埃粒子运动轨迹。超广角俯拍镜头,影视级光线渲染,镜头从人物脚部缓慢上摇至穹顶光源全貌,32K分辨率,暗黑金属质感,末日废土氛围。
第二组、女子哭泣着跑开
1、超写实4K电影质感,亚洲女性身着墨绿色丝绸吊带裙(左肩带滑落至手肘处),泪珠在颧骨处折射霓虹光斑。特写镜头聚焦湿润的琥珀色瞳孔,下睫毛膏晕染成烟熏状,鼻尖泛红,唇纹间残留红色唇釉。背景为雨夜街道霓虹虚化,雨滴悬浮在面颊1厘米处,丁达尔光束穿透发丝。
2、身着墨绿色丝绸吊带裙的亚洲女性在暴雨中转身奔跑,墨绿裙摆因急速转身呈螺旋状飞扬,湿发黏在后颈形成V形水痕。低角度仰拍展现浸水的柏油路面倒影,霓虹灯牌”迷途酒吧”在雨幕中渐隐,左脚高跟鞋脱落于画面右下角,采用《银翼杀手2049》青橙色调,运动模糊强化动态。
第三组,蝴蝶飞离花朵
1、微距镜头特写一朵盛开的紫色鸢尾花,花瓣沾有晨露。主体为一只翅膀半收的蓝闪蝶停驻花心,触须轻微颤动,背景虚化为绿色草丛,光线柔和偏暖色调。
2、微距镜头特写一朵盛开的紫色鸢尾花的侧方,花瓣轻微晃动,晨露滴落。背景草丛清晰展现随风摇摆的动态,光线转为高亮度逆光,花瓣上有着一只蝴蝶的影子,形成光影交错。
二、图生视频
打开通义万相网站,点击“视频生成”-“图生视频”,把“首尾帧”打开,上传首帧和尾帧图片,把视频生成提示词(镜头过渡描述)粘贴到“创意描述”中。
最终这3组生成的视频如下:
1、地下祭坛
提示词:“视频展示了9个身着黑色长袍、头戴兜帽的神秘人物,他们从画面两侧缓缓步入,汇聚于中央一个悬浮的、散发着柔和光芒的立方体前。人物们整齐地站成一排,面朝立方体,仿佛在进行某种庄严的仪式。镜头始终保持静止,精准地捕捉到每一个神秘人物的动作和立方体的神秘光辉,营造出一种充满悬念和仪式感的氛围。随着一名黑袍人物从左侧进入画面,缓缓走向中心,整个场景的紧张感进一步升级。”(由通义万相智能扩写生成)
2、女子哭泣着跑开
“视频展示了女子从静止瞬间爆发至全速奔跑的动感画面,她身穿绿色连衣裙,脚踏高跟鞋,在雨中疾驰,激起片片水花。长发在疾风中飞扬,泪珠与雨水交织,滑落脸颊。镜头紧随其后,捕捉每一个情感瞬间,背景是霓虹灯闪烁、雨幕朦胧的城市街道,营造出一种既梦幻又略带伤感的氛围。女子突然停下,用手一抹脸上的泪水,随即转身,再次加速奔跑,仿佛在逃避某种无法言说的情感纠葛。”
3、蝴蝶飞离花朵
“视频展示了一只蓝闪蝶从紫色鸢尾花的花瓣上轻盈起飞,翅膀闪烁着耀眼的蓝色光泽,如同微小的宝石在阳光下舞动。镜头紧随其后,捕捉蝴蝶在空中优雅盘旋的姿态,背景的模糊处理使蝴蝶成为绝对的视觉焦点,它的每一次振翅都显得格外生动和迷人。”