首页 排行榜文章正文

快手科技重磅发布:让AI看懂复杂视频的"慢-快"双眼系统

排行榜 2025年09月24日 03:33 2 admin

快手科技重磅发布:让AI看懂复杂视频的"慢-快"双眼系统

快手科技的研究团队在2025年9月9日发布了一项令人瞩目的研究成果——Keye-VL 1.5技术报告。这项由快手Keye团队主导的研究,详细介绍了一个能够深度理解视频内容的多模态大语言模型。研究论文已发表在arXiv预印本平台上,编号为arXiv:2509.01563v3,感兴趣的读者可以通过https://kwai-keye.github.io/和https://huggingface.co/Kwai-Keye访问相关资源,也可以通过https://github.com/Kwai-Keye/Keye获取开源代码。

当我们看电影或短视频时,大脑会自然地处理其中的画面变化:对于激烈的动作场面,我们会全神贯注地观察每一个细节;而对于相对静止的对话场景,我们则会放松注意力,但仍能捕捉到重要信息。快手科技的研究团队正是受到这种人类视觉机制的启发,开发出了Keye-VL 1.5这个革命性的视频理解系统。

这个系统最大的创新之处在于它的"慢-快"双眼设计。就像人眼在观看不同场景时会采用不同的注意力策略一样,Keye-VL 1.5会智能地分配计算资源:当视频中出现重要变化时,"慢眼"会以高分辨率仔细观察每一个细节;而在相对平静的场景中,"快眼"则会以较低分辨率但更广的时间跨度来监视整体情况。这种设计让AI不仅能看清视频中的细节,还能理解时间序列中的复杂关系。

更令人惊讶的是,这个系统不仅能处理短视频,还能理解长达数小时的视频内容。研究团队通过四个阶段的渐进式训练,让模型的理解能力从处理8000个信息单元扩展到128000个单元,这相当于让一个人的注意力范围扩大了16倍。同时,他们还开发了一套完整的训练体系,让AI不仅能准确理解视频内容,还能按照人类的喜好来回答问题。

在多项评测中,Keye-VL 1.5都表现出了超越同类产品的能力,特别是在视频理解任务上,它的表现堪称业界标杆。这意味着未来的视频内容理解、自动字幕生成、视频搜索等应用都将迎来质的飞跃。

一、视频理解的困境与突破

想象你正在图书馆里快速浏览一本厚重的画册。有些页面内容丰富、细节繁多,需要你仔细观察;而有些页面相对简单,你只需要快速翻过。现有的AI视频理解系统就像一个只会用同一种速度看书的读者,无论内容复杂还是简单,都用相同的"阅读速度",这样既浪费了时间,又容易遗漏重要信息。

视频内容具有天然的动态性和信息密集性,这给AI理解带来了前所未有的挑战。一段普通的视频可能包含成千上万帧画面,每一帧都携带着丰富的视觉信息。传统的处理方法通常采用"一刀切"的策略:要么统一选取固定数量的关键帧,要么将所有帧降低到相同的分辨率。这种做法就像用同一个模板裁剪所有不同的布料,必然会造成信息的丢失或资源的浪费。

快手团队面临的核心问题是如何在有限的计算资源下,既要保证对重要画面的精细理解,又要维持对整个视频时间轴的全局把握。这就好比一个摄影师同时需要拍摄微距特写和全景画面,但只有一台相机的窘境。传统方法往往在空间分辨率和时间覆盖范围之间难以平衡,要么看得清楚但看得不全,要么看得全面但看不清楚。

为了解决这个根本性矛盾,研究团队提出了革命性的"慢-快"视频编码策略。这个策略的灵感来源于人类视觉系统的工作原理。当我们观看体育比赛时,在运动员快速移动的关键时刻,我们的注意力会高度集中,大脑会调动更多资源来处理这些复杂的视觉信息;而在比较平静的时段,比如运动员在准备阶段,我们的注意力会相对放松,但仍然保持基本的监控。

这种生物学启发的设计理念被巧妙地转化为技术实现。系统首先会分析视频中相邻画面之间的相似性。当画面变化较小时,说明这段时间内的信息相对稳定,系统就启动"快通道",用较低的分辨率但更密集的采样来处理这些帧;当画面出现显著变化时,比如场景切换或重要动作发生,系统就切换到"慢通道",用更高的分辨率来精细分析这些关键时刻。

这种自适应的处理方式带来了显著的优势。首先,它大大提高了计算效率,避免了对平静场景的过度分析;其次,它确保了对关键信息的充分捕捉,不会因为资源限制而错过重要细节;最重要的是,它保持了对整个视频时间轴的连贯理解,让AI能够建立起完整的时空关系图谱。

研究团队在设计这套系统时,还考虑了实际应用中的各种复杂情况。比如,当一个镜头中同时包含快速运动的前景和相对静止的背景时,系统会基于画面的整体变化程度来做出判断,既不会因为局部的微小变化而过度反应,也不会因为整体的相对稳定而忽视重要的局部变化。

二、渐进式训练:从新手到专家的成长之路

培养一个优秀的视频分析专家需要循序渐进的训练过程,不可能一蹴而就。快手团队设计的训练方案就像一个精心规划的学习课程,分为四个逐步深入的阶段,让AI从基础的图像识别能力发展到复杂的视频推理能力。

第一阶段可以比作"基础视觉训练"。在这个阶段,系统需要学会基本的视觉识别能力,就像人类婴儿最初学会区分不同的颜色和形状一样。研究团队使用了SigLIP-400M-384-14作为视觉编码器的基础,这相当于给AI配备了一双经过基础训练的"眼睛"。但是,原始的SigLIP只能处理固定尺寸的图像,就像一个只会看标准照片的人突然面对各种奇形怪状的画面会感到困惑。

为了让AI能够适应各种分辨率和宽高比的视觉内容,研究团队对视觉编码器进行了"手术级"的改造。他们引入了原生分辨率处理技术,让AI能够保持图像的原始结构完整性,避免了传统方法中常见的图像裁剪或变形问题。同时,他们还加入了二维旋转位置编码技术,这就像给AI装上了一个精密的空间定位系统,让它能够准确理解图像中各个元素的相对位置关系。

第二阶段是"跨模态对齐训练",这个过程就像教会AI将看到的内容和听到的描述联系起来。想象一个外国人刚到中国时,虽然能看懂图片,但不知道如何用中文描述所看到的内容。这个阶段的训练就是要建立视觉信息和语言信息之间的桥梁。研究团队在这个阶段冻结了视觉编码器和语言模型的参数,只训练中间的投影层,这种做法确保了基础能力的稳定性,同时专注于建立两种模态之间的映射关系。

第三阶段是"多任务全面训练",相当于让AI接受全科医生的培训。在这个阶段,所有的模型参数都被解冻,系统开始学习处理各种复杂的视觉语言任务。研究团队精心准备了包含图像描述、光学字符识别、目标定位、视觉问答等多种任务的训练数据。这种多任务学习方式让AI不仅能专精某一项技能,还能在不同任务之间迁移和整合知识,形成更全面的理解能力。

最后一个阶段是"长上下文退火训练",这是整个训练过程中最关键的环节。在前面的阶段中,AI处理的信息长度被限制在8192个token,相当于只能看短篇文章。但真正的视频理解往往需要处理更长的内容序列,就像理解一部完整的电影需要把握整个故事脉络一样。在这个阶段,研究团队将上下文长度扩展到131072个token,增长了16倍。

这种扩展并不是简单的数字增加,而是涉及到整个系统架构的重大调整。研究团队需要重新设计内存管理策略,采用更加复杂的并行计算方案,确保系统能够稳定处理如此大规模的信息。同时,他们还调整了训练数据的配比:24%用于视频内容,50%用于图像内容,剩余26%用于纯文本内容。这种精心设计的配比确保了系统在扩展长度能力的同时,不会损失在基础视觉和语言任务上的表现。

整个训练过程就像培养一个全能型人才,从基础技能训练开始,逐步增加任务复杂度和信息处理量,最终培养出能够处理各种复杂视频理解任务的AI专家。每个阶段都有明确的目标和科学的设计,确保AI能够稳步成长而不会出现能力倒退或不稳定的情况。

三、训练后精雕细琢:让AI更懂人心

即使一个AI系统掌握了基本的视频理解能力,要让它真正为人类服务,还需要经过细致的"人格塑造"过程。这就像一个技艺高超但不懂礼貌的工匠,虽然能做出精美的产品,但如果不学会与客户沟通,就无法提供令人满意的服务。快手团队设计的训练后优化方案,就是要让AI不仅能准确理解视频内容,还能以人类喜欢的方式来表达和互动。

这个过程分为几个重要环节。首先是"非推理阶段"的基础调优,包括监督微调和模型偏好优化。监督微调就像给AI上礼仪课,教会它如何按照标准格式回答问题。研究团队准备了超过750万个多模态问答样本,涵盖了各种可能的交互场景。这些数据不是随机收集的,而是经过精心筛选和平衡的。团队使用了TaskGalaxy框架,将数据按照7万种不同的任务类型进行分类,确保AI能够应对各种可能遇到的情况。

为了保证数据质量,研究团队采用了多层过滤机制。对于大量的中等质量数据,他们使用CLIP评分进行初步筛选;对于少量的高质量数据,则使用开源的多模态大语言模型作为判别器。这种做法就像招聘时既要看简历又要面试一样,确保进入训练的每一条数据都有价值。

模型偏好优化阶段则更像是教AI学会察言观色。系统需要学会在多个可能的回答中选择最符合人类期望的那一个。研究团队构建了包含25万个开源样本、15万个纯文本样本和2.6万个人工标注样本的偏好数据集。通过对比高质量和低质量回答的差异,AI逐渐学会了什么样的回答更受人类欢迎。

接下来是"推理能力强化"阶段,这是整个训练过程中最具挑战性的部分。研究团队开发了一套五步骤的思维链数据构建流程,就像教会AI进行系统性思考一样。这个过程从多源数据收集开始,涵盖数学推理、科技问题、逻辑推理、目标定位等多个复杂领域。

在数据增强环节,研究团队使用专有的多模态大语言模型对原始问题进行重写和任务合并,将简单直接的问题转化为需要多步推理的复杂挑战。这就像将单选题改造成需要写出完整解题过程的应用题,不仅要求AI给出正确答案,还要求它展示清晰的思考路径。

多路径推理生成是这个阶段的核心创新。对于每个增强后的问答对,系统会生成多个不同的推理路径,就像解决同一个问题可以有不同的方法一样。研究团队还引入了置信度量化机制,在步骤级别和整体响应级别都计算模型的确信程度。这种设计让AI不仅知道答案是什么,还知道自己对这个答案有多确定。

质量评估环节采用了双层评估框架,既检查答案的正确性,也检查推理过程的合理性。研究团队设计了灵活的匹配模式,能够识别不同表达方式但本质相同的答案。比如数学答案会考虑公式等价性和单位转换,文本答案会考虑语义相似性和表述变化。根据评估结果,所有样本被分为三个等级:A级(高质量)、B级(中等质量,需要人工审查)、C级(低质量,直接丢弃)。

对于B级样本,研究团队实施了"人在回路"的质量提升过程。人工审查员会对这些样本进行精细化改进,修正冗长或重复的推理步骤,增强逻辑连贯性。这个过程确保了最终用于训练的数据不仅正确,而且具有良好的教学价值。

为了优化数据利用效率,研究团队还设计了动态质量评分系统,根据样本对多模态能力的依赖程度进行1-5分的评价。得分较高的样本会在训练过程中被更频繁地使用,这种策略化的数据运用方式确保了模型学习过程的高效性。

四、专业化与通用性的平衡艺术

在AI系统开发中,一个永恒的挑战是如何在专业化和通用性之间找到平衡点。就像培养一个人才,既希望他在某个领域有突出专长,又不希望他在其他方面一窍不通。快手团队在这方面采用了"专家模型融合"的创新策略,这种方法就像组建一个由各领域专家组成的智囊团,每个专家在自己的领域内表现卓越,同时又能协调合作解决综合性问题。

研究团队首先对基础模型进行了全面的能力评估,发现了三个主要的薄弱环节:纯文本处理、数学推理和光学字符识别。这就像发现一个优秀学生在语文、数学和英语三个科目上还有提升空间。针对这些不足,团队决定为每个领域专门训练一个专家模型。

以光学字符识别专家模型为例,这个专业化训练过程相当精细。除了标准的OCR数据集,研究团队还特别关注了车牌识别、街景标识和公章印鉴等特殊场景,这些都是实际应用中经常遇到但标准数据集覆盖不足的情况。他们的增强策略包含三个关键要素:首先是利用图像配对已验证OCR标注的自动化数据生成流程,通过其他多模态大语言模型产生相关OCR问题,而原始标注作为标准答案确保正确性;其次是使用字体渲染工具合成高质量OCR样本,包括多样化的图像背景、语义和非语义文本、多种字体风格和尺寸,以及各种图像分辨率;最后是结构化文档和代码理解任务,通过渲染保持原始布局的代码和文档,创建复杂的OCR任务。

这种专家模型训练的效果显著。OCR专家模型在所有评估的OCR基准测试中都实现了大幅提升,平均得分从基础模型的78.25%提升到83.65%。更重要的是,通过模型融合技术,当专家模型与基础模型合并后,性能进一步提升到84.51%,在TextVQA任务上的表现(83.40%)相比竞争对手MiMo-VL(75.57%)有了显著优势。

模型融合过程需要精确把握多个关键参数。研究发现,专家模型的训练步数存在最优区间:步数太少无法充分掌握专业技能,步数太多则会与通用模型产生过大差异,影响融合效果。学习率的选择同样关键,较小的学习率能够产生更好的专家模型性能,相应的融合模型表现也更优。

最有趣的发现是专家模型与通用模型之间的参数差异对融合性能有决定性影响。差异太小限制了专业领域的改进空间,而差异太大则会导致融合后的模型性能下降,存在一个需要精确把握的最优平衡点。这种现象就像调制鸡尾酒,每种酒的比例都需要恰到好处,才能调出完美的口感。

为了验证这种专家融合策略的普适性,研究团队在数学推理和纯文本处理领域也进行了类似的实验。结果表明,这种方法不仅在特定领域内能够显著提升性能,还能保持模型在其他任务上的稳定表现,真正实现了专业化与通用性的完美平衡。

五、强化学习与智能提示系统

当AI系统掌握了基础能力后,如何让它在面对困难问题时也能坚持不懈地寻找解决方案,这是一个极具挑战性的课题。快手团队开发的"渐进提示采样"系统,就像给AI配备了一个智能的学习助手,能够在适当的时候提供恰到好处的指导,既不会直接告诉答案,又能够帮助AI突破思维障碍。

这个系统的设计哲学基于"最小干预原则",就像一个优秀的老师不会直接告诉学生答案,而是通过巧妙的引导让学生自己找到解决方法。研究团队将提示分为五个递进的层次,每一层都比前一层提供更多的指导,但都严格控制在不直接泄露答案的范围内。

第一层是"概念观察层",主要引导AI关注问题的核心概念或图像中的关键特征。这个层次的提示不包含任何解题方法或公式,只是帮助AI把注意力集中在正确的方向上。比如在处理几何问题时,提示可能是"注意观察这个三角形的特殊性质",而不会提及任何具体的定理或计算方法。

第二层是"策略方法层",会建议一种或多种可能的解题策略。这就像给迷路的人指出几条可能的道路,但不会告诉具体怎么走。提示可能包括"尝试整体思考"、"考虑分情况讨论"或"建立坐标系"等策略性建议,让AI明白解决问题的大致方向,但仍需要自己细化具体步骤。

第三层是"工具公式层",会提供解决问题所需的特定数学定理、公式或工具。这个层次开始提供具体的知识支持,比如"你可能需要使用勾股定理"或"考虑使用积分方法"。但即使提供了工具,AI仍然需要自己决定如何使用这些工具来解决具体问题。

第四层是"步骤计算层",会提供问题解决过程中的第一个具体操作步骤。这就像在拼图游戏中给出第一块拼图的正确位置,为后续的解题过程建立一个可靠的起点。这个层次的提示让AI能够开始具体的计算或操作,但仍需要独立完成剩余的步骤。

第五层是"完整方案层",提供问题的完整解决方案。这个层次主要用作标准答案,当前四个层次都无法帮助AI得到正确结果时,这个完整方案可以作为学习材料。

实验结果显示了这种分层提示系统的显著效果。在没有任何提示的情况下,约有25.56%的困难样本完全无法得到正确解决,这严重影响了强化学习过程的效率。随着提示层次的提升,错误率逐步下降,到第五层时错误率降至仅0.20%。同时,四次尝试的平均得分也从无提示时的1.62分提升到完整方案提示时的3.96分,标准差从1.18降低到0.28,说明结果的稳定性也大大提升。

这种渐进提示系统的巧妙之处在于它能够为每个困难样本找到最适合的帮助程度。对于只需要轻微引导就能解决的问题,系统会停留在较低的提示层次;对于确实困难的问题,系统会提供更多支持,但始终保持让AI自主学习和推理的空间。这种动态调整的能力确保了强化学习过程既高效又有教育价值。

为了进一步提升训练效果,研究团队还设计了迭代循环机制。AI模型会使用强化学习模型对原始训练数据进行重新采样,通过奖励模型评分筛选出比原始标准答案更好的新答案。这些改进的数据会替换原始数据,用于训练下一轮的模型。这个过程会持续多轮,每一轮都在前一轮的基础上进一步提升,形成螺旋上升的改进轨迹。

六、人类偏好对齐的精细化训练

让AI系统不仅能够准确完成任务,还能以符合人类期望的方式进行交互,这是现代AI开发中的重要挑战。快手团队在这个方面投入了大量精力,开发了一套全面的对齐训练系统,这个系统就像培养一个懂得社交礼仪的专业助手,既要有扎实的专业能力,又要有良好的服务意识和沟通技巧。

对齐训练的第一个维度是"指令遵循能力"的提升。这涉及到AI对用户需求的准确理解和恰当响应。研究团队设计了25种硬性约束和20种软性约束来测试和训练这种能力。硬性约束包括关键词包含、标点符号使用、发音要求、输出格式等具体要求,这就像给AI制定了明确的行为规范;软性约束则涉及文本风格和语义表达,更多体现在细微的表达差异上。

团队构建了一个包含1.7万个多模态数据和2.3万个纯文本数据的查询集合,每个查询都被分配了2到6种不同类型的约束条件。这种多约束的设计模拟了真实应用场景中用户可能提出的复杂要求,训练AI在满足多重条件的同时保持响应的自然和有用性。

第二个重要维度是"格式adherence",即确保AI的回应严格遵循预定义的格式要求。这包括think-answer格式、代理思考格式、自动思考格式和无思考格式等多种交互模式。每种格式都有其特定的应用场景和用户期望,AI需要能够根据上下文准确选择和执行相应的格式。

研究团队开发了基于规则的奖励系统来评估格式遵循情况。这个系统能够自动检测AI输出是否符合逻辑推理格式要求,以及是否遵循特定的结构化指导原则,如JSON、Markdown和代码格式等。通过这种自动化评估,训练过程能够及时纠正格式错误,确保AI输出的一致性和可预测性。

第三个维度是"偏好对齐",这是最具挑战性的部分,因为它涉及到对人类主观判断的模拟和学习。对于开放性问题,研究团队通过提升回应的可靠性、交互性和风格来改善用户体验。这个过程需要AI学会在多个可能正确的答案中选择最符合人类偏好的那一个。

为了支持偏好对齐训练,研究团队构建了一个多样化的任务系统和奖励建模框架。这个框架包含三个主要组成部分:基于规则的奖励检查AI回应是否遵循预定义的结构和格式规则;生成式奖励使用其他多模态大语言模型评估回应与参考答案的契合程度、推理一致性和关键属性的相关性;基于模型的奖励则利用专门训练的奖励模型评估回应是否符合人类偏好标准。

在推理任务方面,团队构建了1.2万个数学和逻辑推理查询,每个查询都设计了3到5个解题步骤。AI需要按照规定的步骤顺序解决问题,这不仅测试了问题解决能力,也训练了遵循指令的精确性。系统使用基于规则的奖励计算结果正确性,使用生成式奖励评估推理过程是否遵循了预定义步骤。

对于知识检索增强生成任务,研究团队收集了一系列基于最新新闻的实例,这些实例需要通过互联网搜索才能获得答案。AI被鼓励在思考过程中使用搜索和摘要行为,最终生成正确答案。系统通过生成式奖励评估搜索行为解决查询的有效性、摘要行为的正确性以及最终答案的一致性。

整个对齐训练过程使用GSPO算法进行优化,这种算法特别适合处理具有可验证奖励的强化学习场景。通过多轮迭代训练,AI系统在指令遵循、格式规范和偏好对齐三个维度上都实现了显著提升,为实际应用奠定了坚实的基础。

七、技术创新的核心架构

要理解Keye-VL 1.5的技术魅力,我们需要深入了解其精巧的系统架构。这个架构就像一座设计精良的现代化工厂,每个组件都有明确的分工,同时又协调配合,共同完成复杂的视频理解任务。

系统的核心由三个主要组件构成:视觉编码器、投影层和语言解码器。视觉编码器就像工厂的原料检测部门,负责接收和初步处理各种视觉信息;投影层像是翻译部门,将视觉信息转换为语言系统能够理解的格式;语言解码器则是最终的产品生产线,将所有信息整合后生成最终的文字回应。

视觉编码器基于开源的SigLIP-400M-384-14模型,但经过了大量的定制化改进。最重要的创新是原生分辨率处理能力的引入。传统的视觉处理系统就像只能看标准尺寸照片的人,面对不同比例的图像时要么会裁剪掉重要信息,要么会产生变形。而Keye-VL 1.5的视觉编码器能够自然地处理各种分辨率和宽高比的图像,保持视觉内容的完整性和准确性。

为了实现这种灵活性,研究团队首先使用插值技术将固定长度的可学习位置嵌入扩展为分辨率自适应的位置嵌入。这个过程就像给视觉系统配备了一个可以自动调节的观察网格,能够根据不同的图像尺寸调整观察的精细程度。接着,他们引入了二维旋转位置编码技术,这种编码方式能够更好地表示视觉元素之间的空间关系,特别是在处理高分辨率图像时表现出色。

最后,团队采用了NaViT打包技术结合FlashAttention优化,让视觉编码器能够在处理不同分辨率图像时保持高效率。这种组合就像给生产线装上了智能调度系统,能够根据原料的不同特性自动调整处理流程,既保证质量又提高效率。

在视觉编码的实际应用中,系统对图像和视频采用了不同的策略。对于图像处理,系统为每张图像分配20480个token的预算,这个容量足以处理包含数千万像素的高清图像,确保AI能够看到图像中的足够细节。

对于视频处理,系统的SlowFast编码策略展现了其独特的智能性。这个策略的工作原理类似于人类观看电影时的注意力分配机制。系统首先分析相邻帧之间的patch级别相似性,将第一帧始终标记为slow frame,然后对后续每一帧,如果其与最近的slow frame的patch相似度超过95%,就标记为fast frame,否则标记为新的slow frame。

这种分类完成后,系统为fast frame分配的token预算仅为slow frame的30%,这样既保证了对关键变化时刻的精细捕捉,又通过降低静态场景的处理精度来节省计算资源。整个token分配过程使用二分搜索算法来精确计算每个slow frame的token数量,确保在总预算限制下(例如75000个token)达到最优的资源利用效果。

为了帮助语言模型更好地理解视频的时间结构,研究团队还引入了特殊的时间戳标记。这些标记就像视频的章节目录,清楚地标识出slow frame和fast frame的边界以及对应的时间信息,让AI能够建立起完整的时空关系图谱。

投影层虽然结构相对简单,只是一个随机初始化的多层感知器,但它承担着关键的模态转换功能。这个组件在第一阶段训练中被重点优化,学会将视觉编码器输出的高维视觉特征转换为语言模型能够理解的语义表示。

语言解码器基于广受认可的Qwen3-8B模型,这为系统提供了强大的语言理解和生成能力。为了适应超长上下文的需求,研究团队对语言模型进行了专门的优化,包括将RoPE逆频率从100万调整到800万,使模型能够稳定处理128K token的长序列。

整个架构的设计体现了效率与性能的精妙平衡,每个组件都经过精心优化,确保在处理复杂的多模态任务时既能保持高精度,又能维持合理的计算开销。

八、训练数据的精心orchestration

高质量的训练数据是AI系统成功的基石,快手团队在数据收集、处理和组织方面展现了工匠级的精细态度。他们构建的训练数据生态系统就像一个精心策划的营养配方,为AI提供了全面均衡的"食物"来源,确保系统能够在各个维度上全面发展。

在图像字幕数据的构建上,研究团队面临的首要挑战是现有开源数据的质量参差不齐。许多数据源虽然量大,但质量不可靠,主要是因为它们通常只经过简单的爬虫匹配,图像与描述之间的对应关系不够准确。为了解决这个问题,团队设计了严格的相似性过滤流程,使用CLIP模型对图像-字幕对进行评分,只保留高相似性的配对(CLIP分数大于0.9)。

对于那些被过滤掉的低质量开源图像数据以及团队自有的图像资源,研究团队采用了重新字幕生成的策略。他们调用多个先进的多模态大语言模型,包括Qwen2.5-VL 72B、Tarsier2、GPT-4o和Gemini1.5-pro,为各种分辨率的图像和不同类别的内容生成高质量的合成字幕。实验表明,由不同模型生成的重字幕数据对于细粒度图像理解非常有帮助。

为了防止AI系统退化为单纯的字幕生成器,损害其指令遵循和复杂推理能力,团队实施了数据增强策略,创建了多种格式的训练样本。包括"图像-字幕-问题-答案"格式,训练模型无缝地从生成字幕转向准确回答后续问题,加强上下文理解和任务连续性;"图像-问题-答案-字幕"格式,颠倒任务顺序,要求模型先回答问题再进行描述,打破默认生成字幕的倾向,提高任务切换灵活性和指令敏感度;指令遵循式图像字幕生成和问答,提供多张图像作为输入,然后随机询问特定图像对应的问题或生成字幕。

团队还主动注入了一些"陷阱问题",这些问题指向不存在或矛盾的内容。这种反事实数据鼓励模型更准确地基于视觉内容进行回应,而不是依赖文本先验知识,提高了模型的忠实性和可靠性。

在OCR和VQA数据构建方面,研究团队采用了多种技术来弥补高质量中文数据的稀缺。他们利用SOTA多模态大语言模型合成技术,从开源和内部图像-文本数据集中提取图像构建图像库,利用其中的文本密集图像合成涵盖不同场景的综合OCR数据集。对于VQA任务,他们首先设计种子问题集,通过自演化方法扩展初始问题池,然后将图像及其对应字幕输入SOTA多模态大语言模型,生成高质量且多样化的VQA数据。

考虑到高质量开源中文OCR数据的稀缺,团队进一步利用字体渲染工具合成高质量OCR样本。这个过程包括多样化的图像背景和布局、语义和非语义文本、多种字体风格和尺寸,以及各种图像分辨率,显著增强了模型对中文OCR识别的鲁棒性。

在结构化文档和代码理解方面,团队使用大量代码库(如Markdown、HTML和其他编程语言)创建精细的OCR任务。通过渲染保持原始布局的代码和文档,他们创建了诸如从图像重构源代码或在特定位置补全缺失代码等复杂的OCR任务,训练模型理解文本层次结构和结构。

目标定位和计数数据的构建展现了团队对细节的极致关注。在Keye-VL-1.5的目标定位功能中,他们主要使用三种对象定位形式:中心点、边界框和多边形,坐标严格输入为整数并归一化到[0, 1000)范围内以适应不同分辨率图像。数据来源主要包括RefCoCo、VisualGenome和TolokaVQA作为定位数据源,PixMo作为计数数据源。

对于内部定位数据生成,团队使用其他多模态大语言模型提取相应文档问题的答案区域边界框。为了过滤不正确、缺失或模糊的标注定位数据,他们利用CLIP和Qwen-2.5-7B选择更高分数的点、框或多边形作为训练数据,即从图像中提取相应的定位区域来计算其与目标客观文本的相似性。

九、基础设施的精密engineering

构建如此复杂的AI系统需要强大的技术基础设施支撑,快手团队在这方面展现了深厚的工程能力。他们设计的训练基础设施就像一座高度自动化的现代化制造工厂,能够高效处理海量数据,同时保证训练过程的稳定性和可靠性。

多模态大语言模型的训练面临三个主要挑战:架构异构性、负载不平衡和I/O瓶颈。针对第一个挑战,团队设计了异构混合并行策略。传统的统一并行策略就像用同一套管理方法管理所有不同类型的员工,必然会导致效率低下。而异构策略则像是为不同岗位制定专门的工作流程。

具体来说,对于计算模式相对固定的视觉编码器组件,团队只使用数据并行来最大化吞吐量。这种选择是基于视觉编码器的计算特性:每个样本的处理时间相对可预测,不同GPU之间的工作负载差异较小。而对于参数密集且内存消耗巨大的语言模型组件,团队采用流水线并行、张量并行和数据并行的混合策略。这种精细化的并行设计是实现128K超长序列训练的决定性技术前提。

负载不平衡问题主要源于多模态数据的固有特性。处理高分辨率视频的计算成本可能是处理静态图像的数倍,如果简单地将这些样本随机分配给不同的GPU,就会出现有些GPU长时间高负载运行,而有些GPU提前完成任务后只能等待的情况。为解决这个问题,团队开发了动态负载均衡机制。

这个机制的核心是预估算法,能够根据输入样本的特征(分辨率、帧数、内容复杂度等)预测其计算复杂度。然后使用贪心算法将样本分配到不同的GPU上,目标是使所有GPU的总计算时间尽可能接近。这种做法就像合理安排工厂生产线上的任务分配,确保每个工作站都能保持适当的忙碌程度,避免整体效率被最慢的环节拖累。

I/O瓶颈的解决方案体现了团队对系统架构的深刻理解。他们设计了灵活可扩展的数据加载器,能够深度感知并行训练的拓扑结构。在数据并行维度,每个进程只加载全局数据集的一个分片;在流水线并行维度,只有第一阶段负责数据获取和预处理;在张量/上下文并行维度,数据首先由组内单个进程获取,然后高效广播到组内所有进程。

更进一步,团队实现了I/O服务器架构,将CPU密集型任务(如视频解码)从训练节点上分离出来。这种设计类似于现代工厂中的专业化分工,让训练节点能够专注于GPU计算任务,而繁重的数据预处理工作由专门的服务器承担。这不仅解决了CPU瓶颈问题,还显著提高了整体系统的资源利用率。

为了保证长时间训练过程的稳定性,团队还实现了实例级完美恢复机制。这个机制能够确保任务在中断后从最后一个成功处理的样本开始恢复,而不是从最近的检查点开始,避免了重复处理和数据浪费。这种细致入微的设计体现了团队对大规模训练实践的深刻理解。

在硬件资源优化方面,团队还针对不同训练阶段采用了不同的优化策略。在前两个训练阶段,由于序列长度限制在8K,主要采用数据并行配合Zero-2优化策略来减少内存开销。在最后的退火阶段,为了支持128K的超长上下文,切换到Zero-1优化策略,并采用上下文并行和流水线并行来支持长上下文训练。这种动态调整策略确保了不同训练阶段都能达到最优的资源利用效率。

十、实验评估与性能验证

为了全面验证Keye-VL 1.5的实际性能,快手团队设计了一套涵盖多个维度的综合评估体系。这个评估过程就像对一个全科医生进行执业资格考试,不仅要测试专业技能,还要考察实际工作中的应用能力和用户满意度。

在公开基准测试中,Keye-VL 1.5展现出了全面超越竞争对手的实力。在通用视觉-语言任务方面,系统在OpenCompass上取得了79.5%的得分,显著高于同规模的其他开源模型。在大规模多学科理解基准MMMU上获得71.4%的成绩,在AI2D科学图表理解任务上达到89.5%的准确率。这些成绩不仅体现了系统的基础能力,更重要的是证明了其在处理复杂多模态任务时的可靠性。

更令人印象深刻的是系统在视频理解任务上的表现。在Video-MME基准上,Keye-VL 1.5获得了73.0%的成绩,相比其他开源模型有显著优势。在Video-MMMU这个需要从专业视频中获取知识的任务上,系统的表现(66.0%)比第二名高出6.5个百分点,这个差距在AI评测中已经是相当显著的提升。

在数学推理能力测试中,系统同样表现出色。MathVision任务的46.8%准确率、MathVista的81.2%成绩以及MathVerse的68.7%表现,都明显超越了同规模的竞争对手。这些结果证明了系统不仅能看懂图像和视频,还能进行复杂的逻辑推理和数学计算。

为了更深入地了解系统的实际应用效果,研究团队还构建了内部评估基准。这个基准的设计更贴近实际应用场景,涵盖了视觉元素识别、推理能力、时间信息理解、知识问答、描述能力、鲁棒性、创造能力和领域专业知识等八个核心维度。

在这个综合评估中,Keye-VL 1.5获得了3.53的总分(满分5分),相比预览版本提升了0.51分,相比主要竞争对手MiMoVL-7B-RL-2508提升了0.13分。特别值得注意的是,系统在正确性方面的表现(3.73分)明显优于竞争对手(3.54分),这对于实际应用来说是至关重要的。

细分能力评估揭示了系统的优势领域。在推理能力上,Keye-VL 1.5获得了3.81分,比竞争对手高出0.25分;在时间信息理解方面得分3.36分,比竞争对手高出0.18分;在鲁棒性测试中更是获得了4.29的高分,比竞争对手高出惊人的0.83分。这个鲁棒性优势表明系统在面对各种异常情况和边界案例时都能保持稳定的性能。

为了验证SlowFast视频编码策略的有效性,团队进行了专门的对比实验。他们将Keye-VL-1.5-Base与采用2D卷积合并技术的Qwen-2.5-VL在VideoMME基准上进行了详细比较。结果显示,Keye-VL-1.5-Base在不同帧数设置下都能保持稳定的性能,并且能够在更高的帧数下仍然保持性能提升,而竞争对手在128帧时就达到了性能峰值。

更有趣的是token使用效率的对比。Qwen-2.5-VL的token使用与帧数基本成线性关系,而Keye-VL-1.5-Base在低帧数时使用更多token,在高帧数时使用更少token。这种动态调整的资源分配策略证明了SlowFast编码的智能性和效率优势。

在不同FPS设置的测试中,Keye-VL-1.5-Base表现出了更好的稳定性,这进一步验证了其视频编码策略的鲁棒性。这种稳定性对于实际应用非常重要,因为真实世界的视频内容往往具有不同的帧率和质量特征。

十一、技术细节的深入剖析

在技术实现的细节层面,Keye-VL 1.5展现了研发团队在工程实践方面的深厚功底。这些看似微小的技术选择和优化,实际上对系统的整体性能产生了关键影响,就像精密机械中每一个齿轮的精度都会影响整体运转的smooth性。

在视觉编码器的native分辨率处理实现中,团队面临的首要挑战是如何扩展原本固定尺寸的位置嵌入。SigLIP-400M-384-14模型原本只能处理384×384像素的正方形图像,但实际应用中的图像和视频帧往往具有各种不同的宽高比和分辨率。简单的拉伸或裁剪会导致信息丢失或视觉变形,影响AI的理解准确性。

研究团队采用的解决方案是位置嵌入插值技术。这个过程就像给一个只会看标准地图的人配备了一副能够自动调节焦距的眼镜,让他能够清晰地观察不同比例尺的地图。具体实现上,系统会根据输入图像的实际尺寸,计算出需要的位置嵌入网格大小,然后使用双线性插值将原始的固定尺寸嵌入扩展到相应的大小。

二维RoPE的引入进一步增强了系统的位置理解能力。传统的绝对位置嵌入就像给每个位置贴上固定的标签,而RoPE更像是建立了一个动态的坐标系统,能够更好地表示元素之间的相对位置关系。在处理高分辨率图像时,这种相对位置关系的准确表示变得尤为重要,因为绝对位置嵌入在外推到训练时未见过的分辨率时往往会出现性能下降。

NaViT packing技术的应用则解决了batch处理中的效率问题。传统的方法需要将所有图像填充到相同的尺寸,这不仅浪费计算资源,还可能引入无意义的填充信息。NaViT允许在同一个batch中处理不同尺寸的图像,就像在同一个包装箱中放入不同大小的物品,通过巧妙的排列实现空间的最大化利用。

在SlowFast编码的具体实现中,patch相似性计算是关键环节。系统将每帧图像分割成14×14像素的patch,然后计算当前帧与最近slow frame之间的patch-level相似度。这个计算过程类似于比较两幅拼图的相似程度,通过分块对比来判断整体的变化幅度。95%的相似度阈值是经过大量实验确定的最优值,既能有效识别静态场景,又不会过于敏感而将微小变化误判为重要变化。

token预算的动态分配使用了精巧的二分搜索算法。给定总token预算(如75000个token)和fast frame与slow frame的token比例(30%),系统需要找到一个最优的slow frame token数量,使得所有frame的总token使用量不超过预算。这个过程就像在有限的资源约束下安排生产计划,需要精确计算才能达到最优配置。

在长上下文扩展的实现中,RoPE逆频率的调整是一个关键细节。原始Qwen3-8B模型的RoPE逆频率为1,000,000,适用于相对较短的序列。为了支持128K的超长上下文,团队将这个参数调整为8,000,000。这个看似简单的数值改变,实际上重新定义了模型对序列长度的感知能力,类似于调整望远镜的焦距来观察更远的景物。

训练数据的配比优化也体现了团队对细节的关注。在128K上下文训练阶段,24%视频、50%图像、26%文本的数据配比是经过反复实验确定的。这个配比既保证了视频理解能力的提升,又维持了图像理解和语言能力的平衡。过多的视频数据可能会影响基础的图像处理能力,而过少则无法充分利用扩展的上下文长度。

在训练过程的技术实现中,gradient accumulation和mixed precision training的组合使用确保了在有限的GPU内存下也能处理大batch size的训练。这些技术就像在有限的厨房空间里通过精心安排来完成大型宴会的准备,每个环节都需要精确协调。

十二、应用前景与实际价值

Keye-VL 1.5的技术突破不仅仅是学术研究的成果,更重要的是它为实际应用开辟了广阔的可能性空间。这个系统就像一把万能钥匙,能够开启许多之前无法解决或解决得不够好的实际问题,为各行各业带来切实的价值。

在内容创作和媒体行业,这项技术的影响将是革命性的。目前的视频内容分析和标注工作主要依赖人工完成,不仅成本高昂,而且效率低下。一个专业的视频编辑人员可能需要几个小时才能为一段长视频制作准确的字幕和摘要,而且容易出现遗漏或错误。Keye-VL 1.5能够自动理解视频内容,生成准确的描述、提取关键信息、甚至创建时间轴标注,这将大大降低内容制作的门槛和成本。

对于快手这样的短视频平台,这项技术的价值更是直接而巨大。平台每天上传的视频内容数以百万计,传统的内容审核和推荐系统很难做到精准理解每个视频的具体内容。有了Keye-VL 1.5,系统能够深度理解视频中的场景、人物、动作、情感表达等细节信息,从而实现更精准的内容分类、更智能的推荐算法、更有效的安全审核。

在教育领域,这项技术同样具有巨大的应用潜力。传统的在线教育视频往往缺乏互动性,学生只能被动观看,很难实现个性化学习。Keye-VL 1.5能够理解教育视频的内容结构,自动生成章节划分、知识点标注、甚至针对特定内容生成练习题。更进一步,系统还能根据学生的学习进度和理解情况,智能推荐相关的视频片段或补充材料。

在医疗健康领域,视频分析技术也有着重要的应用价值。医学影像诊断、手术视频分析、康复训练监控等场景都需要对动态视觉信息进行准确理解。Keye-VL 1.5的时间序列理解能力和细节识别能力,使其能够辅助医护人员进行更准确的诊断和治疗方案制定。比如在康复训练中,系统能够分析患者的运动视频,评估动作的标准程度,提供个性化的训练建议。

对于安防监控行业,这项技术带来的改进同样显著。传统的监控系统主要依赖人工监看,既消耗大量人力资源,又容易出现疏漏。Keye-VL 1.5能够实时分析监控视频,自动识别异常行为、追踪特定目标、甚至预测潜在的安全风险。更重要的是,系统能够生成详细的事件报告,为后续的调查取证提供有力支撑。

在智能交通领域,视频理解技术对于交通流量分析、违章行为识别、事故预防等方面都有重要价值。Keye-VL 1.5能够分析道路监控视频,识别车辆类型、统计交通流量、检测违章行为、甚至分析交通事故的发生过程。这些信息对于城市交通管理部门制定更科学的交通策略具有重要意义。

在零售和电商领域,视频内容的理解能够为商品推荐和营销策略提供新的数据支撑。通过分析用户上传的产品使用视频或购物体验分享,系统能够提取出更丰富的用户偏好信息,从而实现更精准的个性化推荐。同时,商家也能够通过视频分析更好地了解消费者的使用习惯和满意度。

对于科研和工业检测领域,Keye-VL 1.5的精确分析能力同样具有重要价值。在材料科学研究中,系统能够分析实验过程的视频记录,自动识别关键的变化时刻和异常现象;在工业质量检测中,系统能够分析生产线的监控视频,及时发现产品缺陷或设备异常。

这些应用场景的实现不仅能够提高工作效率、降低成本,更重要的是能够释放人类的创造力,让人们从重复性的分析工作中解放出来,专注于更有价值的创新和决策工作。随着技术的不断完善和应用领域的扩大,我们有理由相信,像Keye-VL 1.5这样的智能系统将成为推动社会数字化转型的重要引擎。

说到底,快手科技团队开发的Keye-VL 1.5代表了视频理解技术的一个重要里程碑。通过"慢-快"双眼系统的巧妙设计,这个AI不仅学会了像人类一样智能地分配注意力,还掌握了处理超长视频内容的能力。从技术创新到工程实现,从基础研究到实际应用,这项成果展示了中国科技企业在人工智能领域的创新实力和工程能力。

更重要的是,这项技术的开源特性意味着全球的研究者和开发者都能够在此基础上继续创新,推动整个行业的发展。当我们站在人工智能快速发展的时代节点上,像Keye-VL 1.5这样的技术突破不仅仅是科技进步的体现,更是人类智慧和创造力的延伸。它让我们看到了一个更加智能、更加便利的数字化未来。

对于普通用户来说,这意味着未来的视频应用会变得更加智能和贴心。无论是观看短视频时的智能推荐,还是查找特定视频内容时的精准搜索,亦或是自动生成的视频摘要和字幕,这些改进都将让我们的数字生活体验更加丰富和便捷。而对于内容创作者、教育工作者、医护人员等专业人士来说,这项技术将成为强有力的工作助手,帮助他们更高效地完成工作,创造更大的价值。

Q&A

Q1:快手Keye-VL 1.5的"慢-快"双眼系统是怎么工作的?

A:这个系统模仿人类看视频时的注意力分配机制。当视频画面变化较大时,"慢眼"会用高分辨率仔细观察每个细节;当画面相对稳定时,"快眼"会用较低分辨率但更广的时间范围进行监控。系统通过分析相邻画面间的相似性来自动切换模式,相似度超过95%就启用快速处理,这样既节省计算资源又不会错过重要信息。

Q2:Keye-VL 1.5能处理多长时间的视频内容?

A:Keye-VL 1.5可以处理非常长的视频内容,其上下文处理能力从8K个信息单元扩展到了128K个单元,相当于注意力范围扩大了16倍。这意味着它不仅能理解短视频,还能分析长达数小时的视频内容,建立完整的时空关系理解。这种长时间处理能力对于电影分析、教育视频理解、监控视频分析等应用场景非常重要。

Q3:普通用户什么时候能体验到Keye-VL 1.5技术?

A:由于这是快手内部开发的核心技术,普通用户最可能通过快手App或其相关产品来体验这项技术。目前研究团队已经在GitHub上开源了相关代码,开发者可以通过https://github.com/Kwai-Keye/Keye访问。随着技术的不断完善,我们预计很快就能在快手的各种视频功能中感受到更智能的内容理解、更精准的推荐和更准确的搜索体验。


发表评论

长征号 Copyright © 2013-2024 长征号. All Rights Reserved.  sitemap