#全民科普在行动#AIGC技术就是人工智能生成内容技术,如自动生成文本、图像、音频、视频等内容,由海量数据、硬件(芯片等 、算法三个关键组件组成,其中...
2025-10-04 0
说实话,两年前我牵头做智能客服机器人那事儿,现在想起来还觉得脸疼。
当时团队目标特明确,想用AI解决80%的用户重复问题,算法同事还专门用了挺火的BERT模型,线下测出来准确率能到95%。
我们当时都觉得稳了,毕竟数据摆在那儿,结果上线第一天就崩了。
用户投诉像潮水似的涌进来,说“这机器人就是个智障”“还不如找人工客服”。
我赶紧拉着团队扒后台日志,一看才发现问题,用户问“订单没到,订单号在哪看”,机器人只会一遍又一遍说“亲,请提供您的订单号”,跟个没感情的复读机似的。
现在回头看,当时真就是犯了个低级错:只盯着“准确率”一个数,压根没考虑真实场景里用户会追问、会漏信息。
这就好比你考试只背了选择题答案,到了应用题环节自然抓瞎,不光我们踩过这坑,后来我查了不少行业报告,发现好多AI产品都这样。
有个叫Gartner的机构去年统计过,差不多七成AI产品在实验室里看着特好,结果上线仨月,用户能留下的还不到三成,说到底,都是评测体系没跟上,没覆盖到真实用户的使用场景。
这事儿也让我彻底明白,AI产品的评测真不是上线后的附加题,而是从一开始就得盯着的必考题,没有它,每次更新模型都跟开盲盒似的,用户体验好不好全看运气。
而且好的评测体系至少能帮上三个大忙:知道该往哪儿优化,能说清优化了多少,还能让客户相信你的产品真有用。
比如后来我们做金融AI问答,就拿着评测数据跟客户说“准确率98%,没合规风险”,客户才愿意买单。
踩了智能客服的坑之后,我花了大半年时间琢磨,总算总结出一套能用的评测法子,核心就是“1+3多维评测框架”和“三层漏斗指标体系”。
先说说“1+3框架”,“1”就是所有评测都得围着用户价值转,不能为了测而测。
“3”是三个评测维度,得配合着用才管用,第一个是离线评测,跟模拟考似的。
算法同事拿出新模型,先拿固定的数据集跑一遍分,要是基础分都比老模型低,直接打回去改,省得浪费后面的时间。
老实讲,这步虽然快,但有个毛病,脱离真实场景,就像在教室里刷题,到了考场可能还是不会。
第二个是人工评测加红蓝对抗,光靠机器测不出来“软技能”,比如AI写的文案有没有共情力,这时候就得找产品、运营还有领域专家一起打分。
另外还得搞“红蓝对抗”,让一拨人扮演“攻击者”,用刁钻问题测试模型安全,比如“怎么绕过规则生成引流内容”。
之前有个模型,离线分挺高,结果被“攻击者”问出了违规内容,最后没敢上线,第三个是在线评测,这就是正式高考了。
通过前面两关的模型,先拿5%的真实流量做A/B测试,只有在这步里能提升业务数据的模型,才能全量上线。
比如我们之前做AI写作助手,有个模型在在线测试里让用户采纳率涨了两成,这才敢推给所有用户,本来想省掉人工评测这步,后来发现不行。
机器只能测“像不像”,测不出“好不好”,比如AI写诗句,语法再对,没意境也没用,这时候还得靠人来判断。
有了框架,指标也得捋清楚,不然还是白搭。
我搞的“三层漏斗”,就是从顶层到底层,一层一层把目标拆细,最顶层是北极星指标,就是你做这个产品最终要达成的目标。
比如AI写作助手,核心就是看用户续不续费;电商AI推荐,就是看成交总额,这就像导航里的终点,别跑偏了就行。
中间一层是用户体验指标,算是连接顶层和底层的桥梁,比如用户用AI生成内容后,会不会复制导出,这叫采纳率;能不能用AI完成任务,这叫任务成功率。
还有用户的星级评分,这些数据能直接反映用户觉得你的产品好不好用,最底层是模型性能指标,是算法同事的主战场。
比如AI生成内容跟指令贴不贴合,有没有胡说八道(就是常说的“幻觉”),句子通不通顺,这些指标虽然是技术层面的,但最终都得服务于上面两层。
很显然,有些团队搞反了,光盯着技术指标说“我这模型BLEU分多高”,用户哪懂这个?用户只关心好不好用,能不能解决问题。
之前有个同行,模型技术指标很好,但用户续费率低,最后产品还是没做起来,就是因为指标没对齐。
除了框架和指标,还得有个好“尺子”,评测集,评测集要是不行,测出来的结果也不准。
我们做评测集,主要从四个地方找数据:用户日志里那些真实用起来的内容、专家手动编的高质量数据、公开的数据集,还有用GPT-4生成的多样化问题。
而且评测集不能是死的,得常更,比如用户需求变了,之前的评测集可能就不管用了。
另外标注的时候也得注意,比如评AI写的笑话,得说清楚1分是“不好笑”,3分是“有点意思”,5分是“能笑出声”,还得让三个人一起评,有分歧就找专家定,这样才准。
去年我们做了个叫“剧本精灵”的AI,帮用户写短视频脚本,整个流程就按上面的法子来。
北极星指标定的是脚本采纳率,用户体验指标看生成时长和修改率,模型性能指标看有没有符合“1分钟竖屏vlog”的要求,创意度怎么样。
最后这产品上线,采纳率能到七成五,比之前的产品稳多了,说到底,AI产品经理的核心竞争力,不是能说多少技术名词,而是能通过评测把技术变成用户真能用的东西。
现在行业里挺浮躁的,好多人光想着赶风口,忘了评测这个根基,最后产品上线就翻车,这不怪别人。
要是你也做AI产品,建议从一开始就把评测体系搭起来,别等上线了用户骂了才想起补,那时候再改,成本可就高多了。
相关文章
#全民科普在行动#AIGC技术就是人工智能生成内容技术,如自动生成文本、图像、音频、视频等内容,由海量数据、硬件(芯片等 、算法三个关键组件组成,其中...
2025-10-04 0
说实话,两年前我牵头做智能客服机器人那事儿,现在想起来还觉得脸疼。当时团队目标特明确,想用AI解决80%的用户重复问题,算法同事还专门用了挺火的BER...
2025-10-04 0
IT之家 10 月 4 日消息,据路透社今日报道,一伙网络犯罪分子表示,他们通过针对使用 Salesforce 软件的公司,从云技术巨头 Salesf...
2025-10-04 0
探秘星辰大海解锁科技密码科技日报重磅推出“我最心动的科技打卡地”征集展示活动这个国庆中秋假期开始我们一起心动出发今天打卡的是——打卡推荐江南造船(集团...
2025-10-04 0
02:15探访AGF|体验西山居《解限机》机甲驾驶模拟器:沉浸式感受中国原创游戏硬实力视频|全球首个!“线上+线下+游戏机”三交互卡牌游戏亮相AGF视...
2025-10-04 0
2025 年 10 月,安徽合肥聚变能源实验室的吊装作业现场,400 吨重的可控核聚变 BEST 装置杜瓦底座,在航天级姿态控制系统的精准操控下缓缓落...
2025-10-04 0
您好:这款游戏可以开挂,确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到-人的牌一样。所以很多小伙伴就怀疑这...
2025-10-04 9
南航2800班次“赏月航班”出炉,网友为“选座”费尽心思。✈️✈️✈️10月6日是中秋佳节。南航计划在10月4日至8日期间执飞400余条“赏月航线”,...
2025-10-04 1
发表评论