首页 排行榜文章正文

FAQ: 96GB+16GB可变显存与128B大模型、MCP等

排行榜 2025年08月02日 20:14 0 aa

本文主要翻译自博客文章《FAQs: AMD Variable Graphics Memory, VRAM, AI Model Sizes, Quantization, MCP and More!》,原文链接见文末,同时也添加一些我的学习笔记分享给大家。


随着尖端 AI 工作负载的日益先进,AI 加速器可用的内存容量已成为关键瓶颈。在本地运行最新的 LLM、VLM 或图像生成模型需要的内存容量不断增加。配备 96GB 可变显存的 AMD 锐龙 AI Max+ 395 (128GB) 处理器,为解决这一问题提供了一种极其灵活的解决方案。


扩展阅读:《DeepSeek能否引领AI PC发展趋势?(技术篇)》


为了在配备 128GB 内存的 AMD Ryzen™ AI Max+ 395 处理器上运行高达 1280 亿个参数的模型,您需要合适的配置。了解更多关于如何在 AMD Ryzen™ AI Max+ 395 (128GB) 处理器上运行 Meta 的 Llama 4 1090 亿(其中 170 亿个活跃参数)等大型模型的信息,请访问:如何在 Windows 上运行高达 1280 亿个参数的模型(https://www.amd.com/en/blogs/2025/amd-ryzen-ai-max-upgraded-run-up-to-128-billion-parameter-llms-lm-studio.html)。


本文将探讨 AMD Ryzen™ AI Max+ 系统将系统 RAM 转换为独立显卡内存的一项关键功能,以及消费者为何应该关心运行更大尺寸的模型,并回答一些有关 LLM、参数、量化和代理工作流程的常见问题。

AMD Ryzen™ AI 处理器和模型支持矩阵(4bit)

FAQ: 96GB+16GB可变显存与128B大模型、MCP等

编者注:参考上图,传统64GB内存配置的集成显卡AI PC,iGPU内存通常最多只能动态分配一半——即32GB,最多运行4bit量化精度的32B模型(先不讨论速度快慢)——需要大约19.9GB显存。

配置64GB内存的AMD Ryzen AI Max+系列处理器,最多可以给iGPU分配48GB专用显存,因此能支持70B参数大模型,同时还能保证一定的性能效率。

至于109B参数的Llama 4 Scout和参数量123B的Mistral Large 2411模型,4bit量化后需要的内存分别为67.6GB 和 64.6GB。在Windows AI PC中如今只有配128GB内存的AMD Ryzen AI Max+系列可以支持(没有64GB显存的GPU基本上别想了,而传统PC的CPU核跑起来又太慢)。这里注意:要使用最新发布的AMD Adrenalin Edition 25.8.1版本驱动,并且在 Windows 上使用 Vulkan llama.cpp,比如通过LM Studio

我理解传统上模型参数加载的过程通常是先读入系统内存,然后转到GPU内存(并释放系统内存),在系统内存只余下32GB的情况下(实际上还有OS等别的占用),这个流程就可能遇到问题?而AMD 25.8.1版本驱动加上新版Vulkan llama.cpp,估计是对模型参数加载,或者搬运的过程做了优化。比如直接写入显存,或者在系统内存未满时提前触发分批数据搬运。

对于只需要离线、设备内置、具备视觉功能的AI助手的普通用户来说,配备16GB RAM的AMD锐龙AI 9 300系列处理器是一个经济实惠的理想解决方案。在撰写本文时,AMD推荐搭载LM Studio的Google Gemma 3 4B QAT作为理想的AI伴侣,尤其适合那些希望在设备上安全运行AI处理的用户。


关于Ryzen AI PC上LM Studio的使用,我在《从Qwen3 MoE & 稠密模型性能测试-看CPU/GPU算力需求》中有过分享。

想要获得更高质量答案(但需要权衡速度)的高级用户可以选择配备 32GB RAM 的 AMD Ryzen™ AI 9 300 系列处理器,以及 Google Gemma 3 12B QAT 和 LM Studio。这款功能更强大的模型可以输出更复杂的答案,其准确率远高于拥有 40 亿个参数的同类模型。


对于不想在性能上妥协或追求更高质量响应的重度用户,我们推荐配备 64GB RAM 的 AMD Ryzen™ AI Max+ 系列处理器。该平台代号为“Strix Halo”,将用户可用带宽翻倍至 256 GB/s(Token/s令牌数约翻倍),同时通过 VGM 提供最高达 48GB 的专用显存。使用此配置的用户可以运行 Google Gemma 3 27B QAT(一款支持放射学/医疗影像的视觉语言模型),或以比同类竞品快两倍的速度运行 Google Gemma 3 12B QAT。AMD Ryzen™ AI Max+ 平台还能轻松运行高达 12B 参数的图像生成模型(例如 FP16 的 FLUX Schnell)。


最后,对于必须运行最高质量模型、重视高准确率而非快速响应速度的 AI 爱好者/开发者来说,配备高达 96GB 专用显存的 AMD Ryzen™ AI Max+ 395 (128GB) 处理器是您的终极之选。该平台可运行高达 128B 参数的 4 位 LLM/VLM,或高达 32B 参数的 FP16 LLM/VLM(例如 FP16 下的 Google Gemma 3 27B)。

什么是 AMD 可变图形内存?

AMD 可变显存是 AMD 锐龙 AI 300 系列处理器(及更高版本)引入的一项 BIOS 级功能,允许用户将一定比例的系统内存重新分配给集成显卡。这项功能得益于现代 AMD 锐龙 AI 处理器的统一内存架构,实现了 BIOS 级别的内存重新分配,用户实际上可以将闲置的系统内存换成专用显存。


请注意,可变显存或“专用”显存不应与“共享”显存混淆。在典型的 Windows 系统中,50% 的 RAM 已与集成显卡共享,并在任务管理器中显示为“共享显存”。您可以快速识别此内存为共享内存,因为它仍然以系统 RAM 的形式可供 CPU 访问。

FAQ: 96GB+16GB可变显存与128B大模型、MCP等


如何启用 AMD 可变显存 (VGM)?
要启用 VGM,请在桌面任意位置右键单击,然后点击“
AMD 软件:Adrenalin 版”。
点击“
性能”选项卡。点击“调整”选项卡。然后,您应该可以使用下拉菜单设置可变显存。此操作需要重启电脑。需要注意的是,VGM 会从CPU 可用的系统内存中
扣除 ,这通常是高级用户的功能,如果使用不当可能会降低系统性能。AMD 为普通用户、游戏玩家、高级用户和 AI 爱好者分别推荐的设置分别是:默认、中、高和自定义 (75%)。


可变显存需要重启,从操作系统的角度来看,它实际上与显存 (VRAM) 完全相同。使用此功能转换为显存的任何一部分显存 (RAM) 都将从操作系统的角度来看成为“专用显存”,并且不再可用作系统显存 (RAM)。这使得单个连续的专用内存块可用于 iGPU 处理海量 AI 工作负载。由于许多 AI 应用程序在设计时都考虑了显存,这使得 GenAI 工作负载可以开箱即用,无需在应用程序端管理共享内存,并减少了因溢出(从较小的专用内存块溢出到较大的共享内存池)而导致的性能损失。


考虑“总图形可寻址内存”这一术语也很有帮助,其中总图形可寻址内存 = 共享图形内存 + 独立图形内存(又称 VRAM)。
使用 VGM 不仅可以为 iGPU 提供单个连续的专用 VRAM 块,还可以增加 iGPU 可用的总图形可寻址内存(适用于可使用共享内存的应用程序)。
让我们看下面这个简单的例子:
一个 128GB 的系统默认设置为 512 MB 独立图形内存,剩余内存分为共享内存块和 CPU 保留内存块。内存细分如下,iGPU 总共有 512 MB 专用内存和 64.3 MB 图形可寻址内存可用:

FAQ: 96GB+16GB可变显存与128B大模型、MCP等

另一方面,将 VGM 设置为 96GB 的 128GB 系统将具有:

FAQ: 96GB+16GB可变显存与128B大模型、MCP等

通过将工作负载限制为 96GB 可以实现最高性能 - 但是如果需要 - iGPU(设置为 96GB VGM)在技术上可以访问由 AMD Ryzen™ AI MAX+ 驱动的 128GB 系统上的总图形内存大小 112GB(余下32GB系统内存中,最多一半即16GB可以做为“共享显存”)。

为什么用户应该关心运行具有大参数大小的 AI 模型?

在其他变量保持不变的情况下,更大的参数规模将提升输出质量,但代价是处理时间和内存利用率的增加。
例如,如果您正在处理大型语言模型,那么参数数量较多的模型通常比参数数量较少的模型(在架构/版本/精度等相同的情况下)更智能。同样,支持视觉的语言模型(称为视觉语言模型或 VLM)在参数数量较多的变体中将展现出更高的视觉推理能力。

让我们看一个实际的例子:

FAQ: 96GB+16GB可变显存与128B大模型、MCP等

在上面的例子中,3B 模型是一个轻量级模型,可以在大多数机器上运行 - 而 109b(17b 活动)模型需要大约 96GB 的 VRAM(以 Q4 KM 为单位 - 这是一个 4bit 量化)。


“参数越大越好”的规则并不局限于语言模型——一个非常直观的例子就是图像生成模型。下面,我们比较一下 Stable Diffusion 1.5(这是一个非常老的模型,发布于 2022 年,包含 9 亿(0.9B)个参数)和 SD 3 Medium(一个 2024 年发布的包含 81 亿(8.1B)个参数的扩散模型)。

FAQ: 96GB+16GB可变显存与128B大模型、MCP等

SD 1.5 模型可以在大多数现代笔记本电脑上运行(需要 5-7GB 显存),但 SD 3 Medium 模型在 FP16 模式下需要 18GB 显存。两者输出质量的差异显而易见。扩展到更高参数的模型(例如 FLUX.Schnell),在部分卸载(UNET 卸载)模式下运行模型可能需要 32GB 显存。AMD Ryzen™ AI Max+ 395(128GB)处理器可以在完全卸载支持下运行 FLUX.Schnell 等模型。

精度和量化怎么样?

量化将 AI 模型的权重从较高精度格式(例如 FP16)转换为较低精度格式(例如 Q8 或更低)。不同的量化类型(即使在相同的bit位深度下)在特性、精度或性能上也不尽相同。


LLM 量化最常见(通常也是部署最广泛的)形式是 4 位。在本地解决方案中,以及通过广泛采用的 llama.cpp 框架,它采用 Q4 KM 量化的形式。该标准的确立可以追溯到以下 llama.cpp 文档(创建于 2023 年),该文档将 4 位(特别是 Q4 KM)确立为 LLM 量化的“最低可接受”标准。


量化 --帮助

允许的量化类型:
2 或 Q4_0:3.50G(容量),+0.2499 ppl @ 7B(参数量) - 小,质量损失非常高 - 传统,倾向改为使用 Q3_K_M
3 或 Q4_1:3.90G,+0.1846 ppl @ 7B - 小,质量损失很大 - 传统,倾向改为使用 Q3_K_L
8 或 Q5_0:4.30G,+0.0796 ppl @ 7B - 中等,质量均衡 - 传统,倾向改为使用 Q4_K_M
9 或 Q5_1:4.70G,+0.0415 ppl @ 7B - 中等,低质量损失 - 传统,倾向改为使用 Q5_K_M
10 或 Q2_K:2.67G,+0.8698 ppl @ 7B - 最小,质量损失极端 - 不推荐
12 或 Q3_K:Q3_K_M 的别名
11 或 Q3_K_S :2.75G,+0.5505 ppl @ 7B - 非常小,非常高的质量损失
12 或 Q3_K_M :3.06G,+0.2437 ppl @ 7B - 非常小,非常高的质量损失
13 或 Q3_K_L :3.35G,+0.1803 ppl @ 7B - 小,相当大的质量损失
15 或 Q4_K :Q4_K_M 的别名
14 或 Q4_K_S :3.56G,+0.1149 ppl @ 7B - 小,显著的质量损失
15 或 Q4_K_M :3.80G,+0.0535 ppl @ 7B - 中等,均衡的质量 - *推荐*
17 或 Q5_K : Q5_K_M
16 或 Q5_K_S : 4.33G, +0.0353 ppl @ 7B - 较大,低质量损失 - *推荐*
17 或 Q5_K_M : 4.45G, +0.0142 ppl @ 7B - 较大,非常低的质量损失 - *推荐*
18 或 Q6_K : 5.15G, +0.0044 ppl @ 7B - 非常大,极低的质量损失
7 或 Q8_0 : 6.70G, +0.0004 ppl @ 7B - 非常大,极低的质量损失 - 不推荐
1 或 F16 : 13.00G @ 7B - 极大,几乎没有质量损失 - 不推荐
0 或 F32 : 26.00G @ 7B - 绝对巨大,无损 - 不推荐

注:以上指原生FP32精度的模型,像原生FP8的DeepSeek模型,通常认为Q8或者Q4_K_M的质量也可以接受。


我们可以看到,困惑度损失(简单来说,就是衡量模型在预测下一个标记时的困惑程度)对于 Q4 KM 中的大多数任务来说都是可以接受的,并且在本文档中也是官方推荐的。


请注意,Llama.cpp 通常与 GGUF 结合使用。GGUF 是由@ggerganov (Llama.cpp 框架的开发者之一)开发的二进制格式,它将量化与数据类型的硬件支持解耦。有兴趣了解 GGUF 如何在没有硬件支持的情况下部署数据类型的读者,可以访问这个网站(https://huggingface.co/docs/hub/en/gguf) 阅读技术文档。


然而,本文档是在模型能够执行高度复杂的编码任务之前创建的。因此,虽然 Q4 KM(用于 llama.cpp)完全可以用于与 LLM 的通用交互,但它在编程(Coding)示例中的响应开始变差(除非你通过增加非常大的参数大小来弥补这一点)。因此,Q6 通常是编程的最低可行级别——Q8 提供几乎无损的质量(尽管内存需求相应增加,性能也会相应下降)。需要注意的是,Gemma 3 模型中使用的专用量化技术(例如谷歌的 4 位 QAT(量化感知训练))在困惑度损失方面优于 Q4 KM,但并未得到广泛支持,也未在绝大多数模型中可用。
简而言之:普通用户使用 Q4 KM 即可,但需要模型答案高度准确(例如编程或
放射学/医疗影像识别)的用户应至少使用 Q6(当 QAT 等专用权重不可用时)或升级到可用的最大参数大小。

什么是模型上下文协议 (MCP) 和工具调用?

模型上下文协议或 MCP 允许 LLM 使用“工具”——这些工具可以是简单的打开浏览器或读取文件的功能,也可以是复杂的 API 访问,还可以是调用时可以执行预定义编程的代码片段。

此术语通常用于代理工作流程。Anthropic 标准化了这项“插件”功能,使 LLM 能够成为“主动”代理,能够在您的个人系统本地或在线执行更改,而不受聊天窗口的限制。


MCP 安装通常由底层代码块组成 - 无论是 NPX 包、UV 还是基于 Docker 的路径,以及指导 LLM 如何使用工具的说明。


后半部分值得关注——因为使用任何 MCP 通常都会在输入提示中添加数千个文档,作为 LLM 理解和使用该工具所需的文档——这会显著增加 LLM 的提示处理时间。此外,工具调用返回值会逐渐向 LLM 需要解析的上下文中添加数万个 token。因此,同时运行多个工具调用会给 LLM 增加大量的 token 处理量,需要大量内存,并使工作负载几乎完全依赖于计算。


并非所有 LLM 都能熟练地阅读、理解指令并熟练使用工具(或知道如何处理工具调用返回的结果),因此你的学习进度会因模型类型而异。一般来说,最近发布的 LLM 课程特别注重工具调用能力,应该会取得不错的成绩。


您可以在此处找到基于 Docker 的 MCP 实现的精选列表:https://hub.docker.com/mcp(这个对网络访问的限制,大家都懂吧)

FAQ: 96GB+16GB可变显存与128B大模型、MCP等

补充:以Llama 4 Scout 109B (每次激活参数17B) Q4_K_M 模型为例,如果使用默认的4K长度上下文,需要的内存(显存)容量为66GB;若上下文长度增加到256K,内存容量就要占用92GB。上图对RAG或MCP用户应该有参考价值。

英文原文 https://www.amd.com/en/blogs/2025/faqs-amd-variable-graphics-memory-vram-ai-model-sizes-quantization-mcp-more.html

发表评论

长征号 Copyright © 2013-2024 长征号. All Rights Reserved.  sitemap