首页 AI科技文章正文

实测可灵O1,AI做视频从"凑合用&amp

AI科技 2026年05月19日 14:21 42 aa
实测可灵O1,AI做视频从"凑合用"到"能看",还差几道坎?

|有风

编辑 |有风


12月3日可灵AI视频刚上线O1模型,宣传说把文生图、视频生成这些以前分散的功能全揉进一个模型里。

我这人就爱凑热闹,当天就下载试了试,目标很明确,用它拍个"疯狂动物城番外"短片,看看这统一多模态模型是真·黑科技还是虚头巴脑。

重建尼克朱迪,AI角色与场景的"第一眼惊艳"和"细看翻车"

想拍动物城番外,得先把尼克和朱迪"请"出来。

按提示上传了4张尼克的图,有正面有侧面,系统自动蹦出一堆细节标签,"橙白毛色""绿色衬衫""狡黠眼神"。

实测可灵O1,AI做视频从"凑合用"到"能看",还差几道坎?

朱迪也是,上传两张图就识别出"紫粉色警官制服""长耳朵"。

这一步比我想象中顺,以前用不同工具生成角色,经常前一张尼克是圆脸,后一张就变尖脸了,O1这"主体库"相当于给角色办了"身份证",特征抓得挺准。

接着让它生成警局办公室静态图,第一眼真惊艳,尼克靠在桌边叼着冰棍,朱迪站在文件柜前翻资料,角色比例、神态都对味儿,场景画风也和电影里的动物城对上了。

可第二遍生成时,背景警员全成了"朱迪克隆体",个个长着同款兔脸,连毛色都不带换的。

办公桌上的电脑更绝,两台紧挨着像粘在一起,生怕有空地似的。

实测可灵O1,AI做视频从"凑合用"到"能看",还差几道坎?

我试着用局部重绘想把警员换成别的动物,结果要么还是兔脸,要么直接把朱迪也给改没了,气得我差点把手机扔了。

这事儿让我琢磨出点门道,AI现在就像个"偏心眼学生",只盯着你明确说的重点,尼克朱迪,对背景这些"次要任务"就敷衍了事。

你让它画警局,它知道要画桌子椅子,但不知道"警局警员该有不同物种"这种常识,更不懂"电脑摆放得让人能用"。

这哪是技术问题,分明是"缺心眼"啊。

从警局对话到像素舞,视频生成的"流畅叙事"与"细节bug"

静态图折腾完,该试试动起来的视频了。

实测可灵O1,AI做视频从"凑合用"到"能看",还差几道坎?

我想拍个开场,夜晚动物城远景→警局门口→推到办公室里尼克朱迪对话。

指令输进去,生成的片段还真挺像那么回事,远景镜头里动物城灯火通明,镜头慢慢拉近到警局门口,再推门进去,尼克朱迪正好同框。

故事逻辑顺得很,连我妈路过都问"这是新出的预告片?"

但凑近一看,血压立马上来了。

部分警员的电脑屏幕居然面朝观众,合着是给监控看的?

还有个背景角色,脸直接糊成马赛克,远看像打了码的嫌疑人,近看就是像素在蹦迪。

实测可灵O1,AI做视频从"凑合用"到"能看",还差几道坎?

我截了图发群里,朋友开玩笑说"这是动物城灵异事件特辑吧"。

后来想明白了,AI生成视频是一帧一帧画的,每一帧都只顾着完成"尼克朱迪在警局"这个指令,至于上一帧电脑朝哪、角色脸长啥样,它早忘了。

视频片段有了,我又想加点"花活",给警局门口加个"胡萝卜饮料"电子广告牌,结果生成的牌子倒是有,但胡萝卜画得像根橙色火腿肠,不仔细看还以为是卖香肠的。

让它把背景警员全删了,留尼克朱迪单独对话,结果删到最后,尼克旁边还站着个"漏网之鱼",不知道的还以为是他新搭档。

调整镜头节奏更别提了,远景切近景跟卡碟似的,生硬得能硌掉牙。

实测可灵O1,AI做视频从"凑合用"到"能看",还差几道坎?

最逗的是试动作迁移,找了段最近火的像素风舞蹈视频,让朱迪跟着跳。

嘿,还真成了!耳朵尾巴跟着节奏甩,动作幅度也对得上,连狡黠的小眼神都有。

但想让尼克朱迪一起跳,直接卡壳,要么俩角色重叠成"融合怪",要么尼克站着不动像个观众。

问了懂行的朋友才知道,单角色跳舞AI能锁定骨骼关节,多角色就得同时处理俩骨架,还得顾着别让他们撞一起,现在的AI还没这本事。

一站式创作是真香,但"能用"到"好用"还差三步

吐槽归吐槽,O1有个地方我是真服,不用来回切换工具了。

实测可灵O1,AI做视频从"凑合用"到"能看",还差几道坎?

以前做个短片,得在A工具生图、B工具做视频、C工具剪片子,光导文件就够烦的。

现在在一个对话框里,输文字就能生成图,接着转视频,想加音效它还能自动推荐,比如开门配"哐当"声,朱迪翻文件配"沙沙"声,省了不少事。

对我们这种想快速出原型的人来说,简直是救星。

不过要说直接用它做上线级内容,现在还差得远。

我琢磨着,未来AI视频工具想从"能用"变"好用",得迈过三道坎。

实测可灵O1,AI做视频从"凑合用"到"能看",还差几道坎?

第一道是角色别"跳脸",现在动态里角色特征老漂移,要是能学3D建模那样给角色"绑骨骼",把脸、身体的关键点锁死,就稳了。

第二道是让AI懂常识,比如警局电脑该朝人,警员得有不同物种,这得让它多"读"点剧本,知道啥场景该有啥细节。

第三道是指令能"分层",比如我想让尼克朱迪表情生动点,背景随便画画就行,现在一调就"一刀切",太死板。

最后说句掏心窝子的话,O1现在生成的东西,顶多算"草稿级",能看,但得人工修细节。

这其实挺好,说明AI不是来抢饭碗的,是帮我们省掉抠图、剪片段这些体力活,让我们能专心琢磨故事怎么讲才有意思。

实测可灵O1,AI做视频从"凑合用"到"能看",还差几道坎?

以后说不定就是"人出创意,AI出初稿,人再润色"的模式,想想还挺期待的。

总的来说,可灵O1模型确实把AI视频创作的门槛往下拉了一大截,尤其对新手友好。

但细节bug、多角色协同这些问题还在,离直接上线差着一口气。

不过话说回来,技术进步不就是一步一步踩坑踩出来的?等把角色锁定、常识理解这些坎迈过去,说不定哪天我们真能用AI随手拍个动画短片,那才叫过瘾。

发表评论

长征号 Copyright © 2013-2024 长征号. All Rights Reserved.  sitemap