首页 景点排名文章正文

港大TreeSynth破局!数据合成从“乱撒种”到“精准填色”

景点排名 2025年10月06日 20:58 0 admin

香港大学和香港中文大学的研究团队,最近搞出了个叫TreeSynth的东西,这玩意儿专门解决AI训练的大难题,没数据的时候咋提升模型表现,或者现有数据质量不行、分布不均的问题。

港大TreeSynth破局!数据合成从“乱撒种”到“精准填色”

现在AI模型,越来越“挑食”,没好数据根本跑不起来,之前那些数据合成方案,我瞅着就像没规划的农夫瞎撒种,要么好地没种上,要么贫瘠地种一堆,纯属白费功夫。

TreeSynth的想法,是从决策树那儿来的

他们把整个数据空间当成一棵大树的根,一层一层往下分分支,最后每个小分支(也就是叶节点)都对应一个独一无二的小数据区域,这些小区域不重叠,还能把整个数据空间都盖住,这个思路真的绝,之前没人这么干过。

港大TreeSynth破局!数据合成从“乱撒种”到“精准填色”

本来想,数据合成不就是让模型多造点样本,后来发现根本不是这么回事,关键是得“规划”,不然造出来的全是重复的没用的东西。

TreeSynth咋干活?两步搞定数据“规划图”

TreeSynth干活分两步,先分割数据空间,再在小空间里造数据,第一步分割的时候,先让大语言模型(LLM)造点“标杆样本”,再让另一个LLM分析这些样本,定个分割标准,比如要造数学题数据,就先造几十道题,分析出“运算类型”是个好标准,然后按加减法、乘除法这些分。

港大TreeSynth破局!数据合成从“乱撒种”到“精准填色”

但光有标杆样本不够,有些数据区域可能没覆盖到,无奈之下,团队又让模型补了些潜在的属性值,确保所有数据区域都能分到,这一步就像画地图,得把所有地方都标出来,不能漏一块。

分割完就到第二步,在每个小区域里造数据,这时候会把从根到这个小区域的路径描述告诉LLM,比如“GSM8K数学题-加减法-两步运算”,让模型照着这个约束造样本。

港大TreeSynth破局!数据合成从“乱撒种”到“精准填色”

这样看来,这就像填色游戏,每个小区域填对应的颜色,既不会乱,又能填满整个图,我认为这招比传统方案聪明多了,传统方案就是瞎填,填哪儿算哪儿,最后一半地方是空的,一半地方颜色堆太厚。

除了从零造数据,TreeSynth还有个本事,给现成的烂数据“治病”

有些数据集本来分布就不均,比如手写数字数据集里,0和1的样本多到用不完,8的样本少得可怜,TreeSynth能给这些数据建分割树,把每个样本分到对应的小区域里,多的区域就随机删掉点样本,少的区域就用它补点样本,最后数据就均衡了。

港大TreeSynth破局!数据合成从“乱撒种”到“精准填色”

这对企业太实用了,能省不少人工标注的钱,毕竟标注数据可是个费钱费力的活儿,实战见真章!TreeSynth在数学、代码上都赢了,光说不练假把式,团队拿TreeSynth做了不少实验,数学推理、代码生成、心理学任务都试了。

港大TreeSynth破局!数据合成从“乱撒种”到“精准填色”

就说GSM8K数学题生成吧,从“GSM8K风格数学题”这个根开始分,先按运算类型分成加减法、乘除法这些,再按难度分一步、两步、多步运算,最后造出来的题,每种类型都有,还很均匀。

之前,传统方案造1000道题,加减法能占六成,开方题可能就五成,多步骤混合运算更是直接漏了,但TreeSynth造的题,每种运算类型占比都差不多,多步骤的题也有,这才叫全面。

我觉得这对训练数学推理模型太重要了,模型见的题越全,做题能力才越强

实验里还跟人工标注数据、其他三种合成方案比了

TreeSynth在所有任务里表现都更好,有些任务甚至超过了人工标注数据,更厉害的是,数据规模越大,它表现越好,不像其他方案,数据多了反而重复率高、性能上不去,这说明TreeSynth在大规模数据合成上特别稳。

港大TreeSynth破局!数据合成从“乱撒种”到“精准填色”

数据多样性也提升不少,有些测试里提升了快一半,用t-SNE可视化一看,TreeSynth造的数据在图上散得很均匀,其他方案的都堆在一块,这就能看出来,TreeSynth是真的解决了数据重复、分布不均的问题,不是瞎吹的。

总的来说,TreeSynth不光是给数据合成提供了个新方案,更重要的是换了个思路,从瞎造变成有规划地造,以后AI训练没数据、数据差的问题,怕是能靠它解决不少。

港大TreeSynth破局!数据合成从“乱撒种”到“精准填色”

本来以为,它只能在文本、代码这些领域用,后来发现要是拓展到多模态数据,比如图片加文字,用处肯定更大,对AI研发团队来说,这玩意儿可不是简单的工具,更像是给模型训练“喂饱饭”的关键,能让模型跑得更快、更稳。

发表评论

长征号 Copyright © 2013-2024 长征号. All Rights Reserved.  sitemap