首页 十大品牌文章正文

人大清华联合突破!全球首个数据科学Agent大模型DeepAnalyze开源,全流程自主分析比肩GPT-4o

十大品牌 2025年11月04日 03:20 1 aa
🤖 由 文心大模型 生成的文章摘要

文章介绍了全球首个面向数据科学的a

人大清华联合突破!全球首个数据科学Agent大模型DeepAnalyze开源,全流程自主分析比肩GPT-4o

中国人民大学信息学院、数据工程与知识工程教育部重点实验室范举教授团队联合清华大学研究力量,正式发布全球首个面向数据科学的Agentic大语言模型——DeepAnalyze。这款颠覆性模型打破了传统数据分析工具的流程束缚,仅凭用户单一指令即可自主完成数据准备、分析建模、可视化呈现到研究报告生成的全流程闭环,其创新的训练范式成功破解了大语言模型(LLM)在复杂任务中面临的核心技术瓶颈,且已全面开源,为数据科学领域带来“智能体驱动分析”的全新变革。

数据科学任务的高度复杂性,长期以来让LLM陷入“奖励稀疏”和“轨迹稀缺”的双重困境——模型在早期训练中难以完成复杂任务获得正向反馈,且缺乏足够的长链推理路径指导,导致试错效率低下。为攻克这两大难题,研究团队创新性地提出两大核心技术方案:

课程式Agentic训练模拟人类数据科学家的成长路径,采用“从单一能力到复合能力”的渐进式训练模式。训练过程分为两个阶段:先通过单能力微调夯实模型在代码生成、结构化数据理解、逻辑推理等基础能力;再进入真实任务环境,让模型学会整合多种技能自主完成复杂任务,彻底避免了因任务难度过高导致的训练崩溃问题。

面向数据的轨迹合成框架则通过自动化技术构建了超过50万条数据科学推理与环境交互数据,涵盖推理轨迹合成与交互轨迹合成两大模块。这些高质量数据为模型提供了清晰的解题路径指导,使其在庞大的搜索空间中无需盲目试错,显著提升了任务完成效率和准确性。

DeepAnalyze真正实现了“一个模型搞定全流程”,其核心能力涵盖两大维度:

在数据任务处理方面,模型可自动化完成从原始数据清洗、转换、集成的数据准备工作,到统计分析、特征工程、模型构建与优化的全链条操作,最终生成专业的可视化图表和关键数据洞察,整个过程无需人工干预或预设流程模板。

在数据深度研究领域,模型支持对结构化数据(数据库、CSV、Excel)、半结构化数据(JSON、XML、YAML)和非结构化数据(TXT、Markdown)进行开放式深度分析,能够处理任意数量的多源数据,最终输出达到分析师级别的研究报告,内容深度和结构完整性均优于现有闭源LLM。这种跨类型数据的统一处理能力,大幅降低了数据科学应用的技术门槛。

发表评论

长征号 Copyright © 2013-2024 长征号. All Rights Reserved.  sitemap