实测可灵O1，AI做视频从&amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;quot;凑合用&amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp

AI科技 2026年05月19日 14:21 42 aa

文 |有风

编辑 |有风

12月3日可灵AI视频刚上线O1模型，宣传说把文生图、视频生成这些以前分散的功能全揉进一个模型里。

我这人就爱凑热闹，当天就下载试了试，目标很明确，用它拍个"疯狂动物城番外"短片，看看这统一多模态模型是真·黑科技还是虚头巴脑。

重建尼克朱迪，AI角色与场景的"第一眼惊艳"和"细看翻车"

想拍动物城番外，得先把尼克和朱迪"请"出来。

按提示上传了4张尼克的图，有正面有侧面，系统自动蹦出一堆细节标签，"橙白毛色""绿色衬衫""狡黠眼神"。

朱迪也是，上传两张图就识别出"紫粉色警官制服""长耳朵"。

这一步比我想象中顺，以前用不同工具生成角色，经常前一张尼克是圆脸，后一张就变尖脸了，O1这"主体库"相当于给角色办了"身份证"，特征抓得挺准。

接着让它生成警局办公室静态图，第一眼真惊艳，尼克靠在桌边叼着冰棍，朱迪站在文件柜前翻资料，角色比例、神态都对味儿，场景画风也和电影里的动物城对上了。

可第二遍生成时，背景警员全成了"朱迪克隆体"，个个长着同款兔脸，连毛色都不带换的。

办公桌上的电脑更绝，两台紧挨着像粘在一起，生怕有空地似的。

我试着用局部重绘想把警员换成别的动物，结果要么还是兔脸，要么直接把朱迪也给改没了，气得我差点把手机扔了。

这事儿让我琢磨出点门道，AI现在就像个"偏心眼学生"，只盯着你明确说的重点，尼克朱迪，对背景这些"次要任务"就敷衍了事。

你让它画警局，它知道要画桌子椅子，但不知道"警局警员该有不同物种"这种常识，更不懂"电脑摆放得让人能用"。

这哪是技术问题，分明是"缺心眼"啊。

从警局对话到像素舞，视频生成的"流畅叙事"与"细节bug"

静态图折腾完，该试试动起来的视频了。

我想拍个开场，夜晚动物城远景→警局门口→推到办公室里尼克朱迪对话。

指令输进去，生成的片段还真挺像那么回事，远景镜头里动物城灯火通明，镜头慢慢拉近到警局门口，再推门进去，尼克朱迪正好同框。

故事逻辑顺得很，连我妈路过都问"这是新出的预告片？"

但凑近一看，血压立马上来了。

部分警员的电脑屏幕居然面朝观众，合着是给监控看的？

还有个背景角色，脸直接糊成马赛克，远看像打了码的嫌疑人，近看就是像素在蹦迪。

我截了图发群里，朋友开玩笑说"这是动物城灵异事件特辑吧"。

后来想明白了，AI生成视频是一帧一帧画的，每一帧都只顾着完成"尼克朱迪在警局"这个指令，至于上一帧电脑朝哪、角色脸长啥样，它早忘了。

视频片段有了，我又想加点"花活"，给警局门口加个"胡萝卜饮料"电子广告牌，结果生成的牌子倒是有，但胡萝卜画得像根橙色火腿肠，不仔细看还以为是卖香肠的。

让它把背景警员全删了，留尼克朱迪单独对话，结果删到最后，尼克旁边还站着个"漏网之鱼"，不知道的还以为是他新搭档。

调整镜头节奏更别提了，远景切近景跟卡碟似的，生硬得能硌掉牙。

最逗的是试动作迁移，找了段最近火的像素风舞蹈视频，让朱迪跟着跳。

嘿，还真成了！耳朵尾巴跟着节奏甩，动作幅度也对得上，连狡黠的小眼神都有。

但想让尼克朱迪一起跳，直接卡壳，要么俩角色重叠成"融合怪"，要么尼克站着不动像个观众。

问了懂行的朋友才知道，单角色跳舞AI能锁定骨骼关节，多角色就得同时处理俩骨架，还得顾着别让他们撞一起，现在的AI还没这本事。

一站式创作是真香，但"能用"到"好用"还差三步

吐槽归吐槽，O1有个地方我是真服，不用来回切换工具了。

以前做个短片，得在A工具生图、B工具做视频、C工具剪片子，光导文件就够烦的。

现在在一个对话框里，输文字就能生成图，接着转视频，想加音效它还能自动推荐，比如开门配"哐当"声，朱迪翻文件配"沙沙"声，省了不少事。

对我们这种想快速出原型的人来说，简直是救星。

不过要说直接用它做上线级内容，现在还差得远。

我琢磨着，未来AI视频工具想从"能用"变"好用"，得迈过三道坎。

第一道是角色别"跳脸"，现在动态里角色特征老漂移，要是能学3D建模那样给角色"绑骨骼"，把脸、身体的关键点锁死，就稳了。

第二道是让AI懂常识，比如警局电脑该朝人，警员得有不同物种，这得让它多"读"点剧本，知道啥场景该有啥细节。

第三道是指令能"分层"，比如我想让尼克朱迪表情生动点，背景随便画画就行，现在一调就"一刀切"，太死板。

最后说句掏心窝子的话，O1现在生成的东西，顶多算"草稿级"，能看，但得人工修细节。

这其实挺好，说明AI不是来抢饭碗的，是帮我们省掉抠图、剪片段这些体力活，让我们能专心琢磨故事怎么讲才有意思。

以后说不定就是"人出创意，AI出初稿，人再润色"的模式，想想还挺期待的。

总的来说，可灵O1模型确实把AI视频创作的门槛往下拉了一大截，尤其对新手友好。

但细节bug、多角色协同这些问题还在，离直接上线差着一口气。

不过话说回来，技术进步不就是一步一步踩坑踩出来的？等把角色锁定、常识理解这些坎迈过去，说不定哪天我们真能用AI随手拍个动画短片，那才叫过瘾。

河西中央科创区又有新动作

三星1330亿赴美建厂为iPhone供芯，iPhone Air二代或2026年秋季亮相

发表评论

实测可灵O1，AI做视频从&amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;quot;凑合用&amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp

重建尼克朱迪，AI角色与场景的"第一眼惊艳"和"细看翻车"

从警局对话到像素舞，视频生成的"流畅叙事"与"细节bug"

一站式创作是真香，但"能用"到"好用"还差三步

河西中央科创区又有新动作

三星1330亿赴美建厂为iPhone供芯，iPhone Air二代或2026年秋季亮相

热门文章

最新文章

实测可灵O1，AI做视频从&amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;quot;凑合用&amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp

重建尼克朱迪，AI角色与场景的"第一眼惊艳"和"细看翻车"

从警局对话到像素舞，视频生成的"流畅叙事"与"细节bug"

一站式创作是真香，但"能用"到"好用"还差三步

河西中央科创区又有新动作

三星1330亿赴美建厂为iPhone供芯，iPhone Air二代或2026年秋季亮相

热门文章

最新文章

实测可灵O1，AI做视频从&amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;quot;凑合用&amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp