你的床头柜或办公桌下,是否也和我一样,常年“供奉”着一排形态各异的充电头?手机、电脑、耳机、游戏机……它们像一群沉默的“房客”,即使在“休息”时,也牢...
2025-10-17 0
作者:杨秋弟
大家好,我是来自阿里云智能集团的资深产品专家杨秋弟,今天很荣幸能在云栖大会的场合,和大家分享过去一年我们在支持企业构建 AI 应用过程的一些实践和思考。
从事 AI 领域的同仁,无论是科研学者,落地 AI 的企业,还是提供 AI 技术或产品的供应端企业,我想大家都有非常一致的体感,就是 AI 应用的发展是势不可挡的,并正在重塑软件行业,我们来看几组数据:
由此看来,智能体应用已经逐步成为客户应用架构中的重要组成部分。这个演进过程,应用的发展和基础设施的升级是双向驱动、相互成就的。
但这一演进过程,并非一帆风顺。从服务云上客户的过程中,我们发现,AI 应用架构落地难点集中在以下三个方面:
这些问题的解决,需要云基础设施从传统形态升级为 AI 原生架构。AI 基础设施的核心要素包括:具备毫秒级弹性的函数计算运行时、统一流量治理与协议适配的 AI 网关、支撑异步高吞吐通信的消息中间件,以及覆盖模型调用、智能体编排和系统交互的全栈可观测体系。只有在这一新型基础设施的支撑下,智能体应用才能真正成为企业应用架构的“新基建”,推动业务持续智能化升级。
因此,我们提炼了上图展示的 AI 原生应用架构,将 AI 运行时、AI 网关、AI MQ、AI Memory、AI 可观测等 8 大关键组件串联起来,形成一套完整的 AI 原生技术栈,我们称之为 AgentRun。企业不必从零开始组装,基于 AgentRun 就可以大幅度缩短从 PoC 到生产上线的时间。
接下去,我们将围绕前面提到的三大挑战,为大家逐一解析 AgentRun 的八大核心组件是如何提供的 AI 原生架构支撑的。
有了整体架构蓝图,我们首先要解决最基础的问题:作为企业 IT 系统的“新成员”,智能体应该运行在什么样的底座之上? 这就引出了我们对运行时的核心要求。
函数计算
我们发现,Agent 应用有几个典型特征:流量不可预测、多租户数据隔离、容易被注入攻击。这些特征要求运行时必须具备三大核心能力:毫秒级弹性 、会话亲和管理、以及安全隔离。
传统单体或微服务应用的开发以服务为边界,开发者致力于构建功能内聚的单体或微服务,但这往往导致代码逻辑的深度耦合与复杂化。AI Agent 的出现则彻底颠覆了这一模式。其核心不再是构建固化的服务,而是通过大语言模型(LLM)理解用户意图,进而动态、智能地编排一系列原子化的工具集或 Agent。这种全新的开发模式与函数计算(FaaS)的设计哲学不谋而合。函数计算让开发者能以最轻量、最原生的方式将 Agent 的每一个原子能力封装成一个独立的函数。这意味着,开发者构想的任何 Agent 或工具,都可以精准地映射为一个开箱即用、轻量灵活、安全隔离、极致弹性的函数。它不仅带来了更优的开发体验与更低的成本,更关键的是,它极大地提升了 Agent 的生产可用性与与市场推广效率(Go-To-Market),让 AI 创新的规模化落地成为可能。
为了深度拥抱 AI Agent 的需求并践行 Function-to-AI 的理念,函数计算创新性地打破传统 FaaS 的无状态(Stateless)边界。通过原生支持 Serverless 会话亲和性(Session Affinity),为每个用户会话动态分配一个专属的持久化函数实例,该实例可存活长达8小时甚至更久,完美解决了 Agent 多轮对话中的上下文保持难题。数十万级函数百万级会话轻量化管理运维,基于请求感知调度策略支持从零到百万 QPS 的自由伸缩,完美契合了 AI Agent 应用常见的稀疏或突发性流量模式,确保了服务的稳定运行。
工具运行时方面,函数计算内置 Python/Node.js/Shell/Java 等多语言执行引擎,代码执行延迟 < 100ms;内置 Code Sandbox 、Browser Sandbox 、Computer Sandbox 、RL Sandbox 等开箱即用的云沙箱工具。在安全隔离方面,函数计算通过安全容器技术,提供请求级别、会话级别以及函数级别多维度隔离机制,为每一个任务提供了虚拟机级别的强隔离。同时结合会话级别的动态挂载能力,实现计算层与存储层的安全隔离,全场景覆盖 Sandbox 最严苛的代码执行安全与数据安全的诉求。而在模型运行时方面,函数计算则专注于领域模型与小参数大语言模型的托管。
在模型运行时方面,函数计算聚焦于垂类模型与小参数大语言模型,函数计算提供 Serverless GPU 基于内存快照技术,实现毫秒级的忙闲时自动切换,大幅降低 AI 落地成本;依托于请求感知调度策略,可以更好解决 GPU 资源空置或争抢问题,保障业务请求 RT 稳定。通过 GPU 与 CPU 算力的解耦自由组合,单卡甚至 1/N 卡切割的虚拟化技术,为客户提供更细粒度的模型资源配置,让模型托管更经济、更高效。
函数计算作为 Serverless 最典型的产品,目前已服务于百炼、魔搭、通义千问等诸多重要客户,已然成为企业构建 AI 应用时的理想选择。
RocketMQ for AI
有了高效的运行时,当智能体规模扩大、交互模式变得更多样化之后,我们就需要引入异步通信来保证系统的吞吐和稳定性。为此,我们全新发布了 RocketMQ for AI。它的核心创新点是全新发布的 LiteTopic,我们为每个会话动态创建一个轻量级 LiteTopic,用于持久化保存会话的上下文、中间结果等等。LiteTopic 不仅能支持 Agent 的断点续传,还能将多 Agent 通信的吞吐率提升 10 倍之上。
这一创新架构的实现,依托于 RocketMQ 为 AI 场景深度优化的四大核心能力:
相比从 0 开发一个智能体,将存量系统和智能体进行融合,是试错成本相对更低的智能化路径。但通常会遇到以下两个难题:
难题一:存量业务如何与智能体打通
对于大多数企业而言,已经沉淀了庞大的存量系统和服务接口,这些系统是业务的核心资产,但它们通常基于传统的 HTTP/REST 协议构建,缺乏与智能体直接交互的能力。难题在于,如何在不推翻现有架构的情况下,让智能体能够顺畅访问并调用这些存量能力。如果强行改造存量系统,不仅成本高昂,还会影响现有业务的稳定性。因此,需要一个统一的中间层,既能对接存量服务,又能为智能体提供标准化、可治理的调用入口。
阿里云云原生 API 网关正是针对这一场景而设计:它通过协议适配、流量治理、内置安全和可观测能力,将传统 API 平滑地转化为智能体可消费的服务,从而帮助企业低成本实现智能化升级。它具备:
难题二:如何快速创建与管理 MCP Server
除了打通存量系统,企业还需要不断构建新的智能体工具,尤其是基于 MCP(Model Context Protocol)这一新兴标准协议。但难题在于,如何快速开发、部署和管理 MCP Server,使其能够与智能体无缝衔接。如果缺乏高效的开发运行环境,企业在创建 MCP Server 时往往面临资源准备复杂、部署周期长、难以保证弹性与安全的问题。
对此,阿里云提供了函数计算(Function Compute)作为快速开发和运行 MCP Server 的理想运行时,具备毫秒级弹性、零运维和多语言支持的特点。利用函数计算轻量化、毫秒级弹性、零运维以及内置多语言运行环境等特性,为 MCP Server 提供理想的运行时。利用函数计算一站式开发与广泛集成的能力,提高 MCP 开发的效率。
同时,通过 AI 网关,企业可以在统一入口实现对 MCP Server 的注册、鉴权、灰度、限流和可观测管理,支持零代码将 HTTP 转 MCP,这让企业能够在最短时间内构建并上线 MCP Server,支撑起智能体与业务场景的快速结合。此外,AI 网关提供了 MCP 市场的能力,适用于企业构建私有化的 AI 开放平台。
无论你是从 0 构建一个智能体,还是通过智能体与存量系统进行融合,这只是应用智能化的第一步。当企业把智能化推向生产,还会面临推理延迟、稳定性波动、问题排查困难、安全风险凸显、输出不可靠及成本过高等问题,这些都是企业级 AI 应用在稳定性、性能、安全与成本控制上的系统性挑战。以下我们将从 AI 网关和 AI 观测,来分享我们的一些应对方案。
AI 网关
网关在应用架构中扮演者入口流量管控的角色。但相比传统的 Web 应用,AI 应用的流量特征截然不同,主要体现在高延时、大带宽与流式传输、长连接、API 驱动的特点。因此催生出来网关的新形态——AI 网关。
总的来讲,AI 网关是提供多模型流量调度,MCP 和 Agent 管理,智能路由和 AI 治理的下一代网关。阿里云提供了开源(Higress)和 商业(API 网关)两种 AI 网关的交付形态。在加速智能体稳定运行方面发挥了以下作用:
AI 可观测
AI 可观测是一系列能够让工程师全面洞察基于大型语言模型构建的应用的实践与工具。
和传统应用不同,AI 应用面临着一系列和所没有的独特挑战,总结来讲有 3 大类:
为应对上述挑战,阿里云 AI 可观测解决方案提供了:
除了完整的解决方案,我们也提供了面向运维与开发人员的智能运维助手,帮助每一个 IT 工程师提升系统异常发现、问题根因定位、故障恢复的效率。
与传统的基于规则的 AIOps 不同,我们的 AIOps 智能体基于多 Agent 架构,具备解决未知问题的自主性。在收到问题后,它会自主地进行规划、执行和反思,从而提升解决问题的能力。在算法层面,我们积累了非常多的原子能力,这些原子包括对海量数据的预处理,异常检测,智能预测等算子,这些都可以作为工具可以被智能体使用。也欢迎大家可以登录我们的控制台进行体验并给我们反馈。
AI DevOps
到这里,AI 原生架构已经基本覆盖智能体快速开发与部署、智能体与存量系统融合以及智能体的稳定运行,但距离真正的规模化落地还差“最后一公里”。也就是如何将这套全新的智能体开发范式融入到企业现有的 DevOps 流程。
阿里云云效 AI DevOps 打通了从编码、构建到运维的全链路,并集成灵码、AIOps 等,将 AI 能力注入其中。当代码提交发布后,系统会自动捕获并关联线上问题,由 AI Agent 生成智能诊断报告。
尽管今天的分享更多聚焦在商业产品层面,但开源开放始终是云原生的底色与核心理念。几乎每一个商业化产品,我们都直接开放了基础能力,或者参与基于外部开源项目持续回馈,推动社区共同演进。例如:
我们相信,正是这种商业与开源双轨并行的演进模式,既能让云原生产品更好的满足企业客户的诉求,也能在开源开放的协作中,保持技术的持续领先与社区活力。
相关文章
你的床头柜或办公桌下,是否也和我一样,常年“供奉”着一排形态各异的充电头?手机、电脑、耳机、游戏机……它们像一群沉默的“房客”,即使在“休息”时,也牢...
2025-10-17 0
10 月 17 日,“中国移动•齐彩云商 —— 淄博直播经济节” 颁奖盛典在淄博盛大举行,为这场历时5个月、聚焦数字赋能的经济盛会画上圆满句号。作为淄...
2025-10-17 0
“本想选Pro版,看完标准版配置直接下单了!”OPPO Find X9系列刚发布,不少网友就发出了这样的感慨。12+256GB版4399元的定价,却塞...
2025-10-17 0
作者:杨秋弟大家好,我是来自阿里云智能集团的资深产品专家杨秋弟,今天很荣幸能在云栖大会的场合,和大家分享过去一年我们在支持企业构建 AI 应用过程的一...
2025-10-17 0
证券之星消息,隆利科技(300752 10月17日在投资者关系平台上答复投资者关心的问题。投资者提问:网传vivoX300旗舰手机也采用了隆利科技提供...
2025-10-17 0
潮新闻客户端 记者 王静近日,在2025中国国际消防展上,一辆同时集成无人机、球形机器人与四足机器人的新能源底盘智能无人装备快速部署消防车,成为全场焦...
2025-10-17 0
在人工智能浪潮席卷全球的今天,移动平台的竞争焦点已全面转向AI。作为高通“AI加速计划”的重要组成部分,全新发布的第五代骁龙8至尊版移动平台,将其技术...
2025-10-17 0
IT之家 10 月 17 日消息,vivo X300 / Pro 手机今日开售,全球首发搭载蓝晶 × 天玑 9500 处理器,标准版售价 4399 元...
2025-10-17 0
发表评论