FAQ: 96GB+16GB可变显存与128B大模型、MCP等

排行榜 2025年08月02日 20:14 0 aa

本文主要翻译自博客文章《FAQs: AMD Variable Graphics Memory, VRAM, AI Model Sizes, Quantization, MCP and More!》，原文链接见文末，同时也添加一些我的学习笔记分享给大家。

随着尖端 AI 工作负载的日益先进，AI 加速器可用的内存容量已成为关键瓶颈。在本地运行最新的 LLM、VLM 或图像生成模型需要的内存容量不断增加。配备 96GB 可变显存的 AMD 锐龙 AI Max+ 395 (128GB) 处理器，为解决这一问题提供了一种极其灵活的解决方案。

扩展阅读：《DeepSeek能否引领AI PC发展趋势？(技术篇)》

为了在配备 128GB 内存的 AMD Ryzen™ AI Max+ 395 处理器上运行高达 1280 亿个参数的模型，您需要合适的配置。了解更多关于如何在 AMD Ryzen™ AI Max+ 395 (128GB) 处理器上运行 Meta 的 Llama 4 1090 亿（其中 170 亿个活跃参数）等大型模型的信息，请访问：如何在 Windows 上运行高达 1280 亿个参数的模型（https://www.amd.com/en/blogs/2025/amd-ryzen-ai-max-upgraded-run-up-to-128-billion-parameter-llms-lm-studio.html）。

本文将探讨 AMD Ryzen™ AI Max+ 系统将系统 RAM 转换为独立显卡内存的一项关键功能，以及消费者为何应该关心运行更大尺寸的模型，并回答一些有关 LLM、参数、量化和代理工作流程的常见问题。

AMD Ryzen™ AI 处理器和模型支持矩阵（4bit）

编者注：参考上图，传统64GB内存配置的集成显卡AI PC，iGPU内存通常最多只能动态分配一半——即32GB，最多运行4bit量化精度的32B模型（先不讨论速度快慢）——需要大约19.9GB显存。

配置64GB内存的AMD Ryzen AI Max+系列处理器，最多可以给iGPU分配48GB专用显存，因此能支持70B参数大模型，同时还能保证一定的性能效率。

至于109B参数的Llama 4 Scout和参数量123B的Mistral Large 2411模型，4bit量化后需要的内存分别为67.6GB 和 64.6GB。在Windows AI PC中如今只有配128GB内存的AMD Ryzen AI Max+系列可以支持（没有64GB显存的GPU基本上别想了，而传统PC的CPU核跑起来又太慢）。这里注意：要使用最新发布的AMD Adrenalin Edition 25.8.1版本驱动，并且在 Windows 上使用 Vulkan llama.cpp，比如通过LM Studio。

我理解传统上模型参数加载的过程通常是先读入系统内存，然后转到GPU内存（并释放系统内存），在系统内存只余下32GB的情况下（实际上还有OS等别的占用），这个流程就可能遇到问题？而AMD 25.8.1版本驱动加上新版Vulkan llama.cpp，估计是对模型参数加载，或者搬运的过程做了优化。比如直接写入显存，或者在系统内存未满时提前触发分批数据搬运。

对于只需要离线、设备内置、具备视觉功能的AI助手的普通用户来说，配备16GB RAM的AMD锐龙AI 9 300系列处理器是一个经济实惠的理想解决方案。在撰写本文时，AMD推荐搭载LM Studio的Google Gemma 3 4B QAT作为理想的AI伴侣，尤其适合那些希望在设备上安全运行AI处理的用户。

关于Ryzen AI PC上LM Studio的使用，我在《从Qwen3 MoE & 稠密模型性能测试-看CPU/GPU算力需求》中有过分享。

想要获得更高质量答案（但需要权衡速度）的高级用户可以选择配备 32GB RAM 的 AMD Ryzen™ AI 9 300 系列处理器，以及 Google Gemma 3 12B QAT 和 LM Studio。这款功能更强大的模型可以输出更复杂的答案，其准确率远高于拥有 40 亿个参数的同类模型。

对于不想在性能上妥协或追求更高质量响应的重度用户，我们推荐配备 64GB RAM 的 AMD Ryzen™ AI Max+ 系列处理器。该平台代号为“Strix Halo”，将用户可用带宽翻倍至 256 GB/s（Token/s令牌数约翻倍），同时通过 VGM 提供最高达 48GB 的专用显存。使用此配置的用户可以运行 Google Gemma 3 27B QAT（一款支持放射学/医疗影像的视觉语言模型），或以比同类竞品快两倍的速度运行 Google Gemma 3 12B QAT。AMD Ryzen™ AI Max+ 平台还能轻松运行高达 12B 参数的图像生成模型（例如 FP16 的 FLUX Schnell）。

最后，对于必须运行最高质量模型、重视高准确率而非快速响应速度的 AI 爱好者/开发者来说，配备高达 96GB 专用显存的 AMD Ryzen™ AI Max+ 395 (128GB) 处理器是您的终极之选。该平台可运行高达 128B 参数的 4 位 LLM/VLM，或高达 32B 参数的 FP16 LLM/VLM（例如 FP16 下的 Google Gemma 3 27B）。

什么是 AMD 可变图形内存？

AMD 可变显存是 AMD 锐龙 AI 300 系列处理器（及更高版本）引入的一项 BIOS 级功能，允许用户将一定比例的系统内存重新分配给集成显卡。这项功能得益于现代 AMD 锐龙 AI 处理器的统一内存架构，实现了 BIOS 级别的内存重新分配，用户实际上可以将闲置的系统内存换成专用显存。

请注意，可变显存或“专用”显存不应与“共享”显存混淆。在典型的 Windows 系统中，50% 的 RAM 已与集成显卡共享，并在任务管理器中显示为“共享显存”。您可以快速识别此内存为共享内存，因为它仍然以系统 RAM 的形式可供 CPU 访问。

如何启用 AMD 可变显存 (VGM)？
要启用 VGM，请在桌面任意位置右键单击，然后点击“ AMD 软件：Adrenalin 版”。
点击“性能”选项卡。点击“调整”选项卡。然后，您应该可以使用下拉菜单设置可变显存。此操作需要重启电脑。需要注意的是，VGM 会从CPU 可用的系统内存中扣除，这通常是高级用户的功能，如果使用不当可能会降低系统性能。AMD 为普通用户、游戏玩家、高级用户和 AI 爱好者分别推荐的设置分别是：默认、中、高和自定义 (75%)。

可变显存需要重启，从操作系统的角度来看，它实际上与显存 (VRAM) 完全相同。使用此功能转换为显存的任何一部分显存 (RAM) 都将从操作系统的角度来看成为“专用显存”，并且不再可用作系统显存 (RAM)。这使得单个连续的专用内存块可用于 iGPU 处理海量 AI 工作负载。由于许多 AI 应用程序在设计时都考虑了显存，这使得 GenAI 工作负载可以开箱即用，无需在应用程序端管理共享内存，并减少了因溢出（从较小的专用内存块溢出到较大的共享内存池）而导致的性能损失。

考虑“总图形可寻址内存”这一术语也很有帮助，其中总图形可寻址内存 = 共享图形内存 + 独立图形内存（又称 VRAM）。
使用 VGM 不仅可以为 iGPU 提供单个连续的专用 VRAM 块，还可以增加 iGPU 可用的总图形可寻址内存（适用于可使用共享内存的应用程序）。
让我们看下面这个简单的例子：
一个 128GB 的系统默认设置为 512 MB 独立图形内存，剩余内存分为共享内存块和 CPU 保留内存块。内存细分如下，iGPU 总共有 512 MB 专用内存和 64.3 MB 图形可寻址内存可用：

另一方面，将 VGM 设置为 96GB 的 128GB 系统将具有：

通过将工作负载限制为 96GB 可以实现最高性能 - 但是如果需要 - iGPU（设置为 96GB VGM）在技术上可以访问由 AMD Ryzen™ AI MAX+ 驱动的 128GB 系统上的总图形内存大小 112GB（余下32GB系统内存中，最多一半即16GB可以做为“共享显存”）。

为什么用户应该关心运行具有大参数大小的 AI 模型？

在其他变量保持不变的情况下，更大的参数规模将提升输出质量，但代价是处理时间和内存利用率的增加。
例如，如果您正在处理大型语言模型，那么参数数量较多的模型通常比参数数量较少的模型（在架构/版本/精度等相同的情况下）更智能。同样，支持视觉的语言模型（称为视觉语言模型或 VLM）在参数数量较多的变体中将展现出更高的视觉推理能力。

让我们看一个实际的例子：

在上面的例子中，3B 模型是一个轻量级模型，可以在大多数机器上运行 - 而 109b（17b 活动）模型需要大约 96GB 的 VRAM（以 Q4 KM 为单位 - 这是一个 4bit 量化）。

“参数越大越好”的规则并不局限于语言模型——一个非常直观的例子就是图像生成模型。下面，我们比较一下 Stable Diffusion 1.5（这是一个非常老的模型，发布于 2022 年，包含 9 亿（0.9B）个参数）和 SD 3 Medium（一个 2024 年发布的包含 81 亿（8.1B）个参数的扩散模型）。

SD 1.5 模型可以在大多数现代笔记本电脑上运行（需要 5-7GB 显存），但 SD 3 Medium 模型在 FP16 模式下需要 18GB 显存。两者输出质量的差异显而易见。扩展到更高参数的模型（例如 FLUX.Schnell），在部分卸载（UNET 卸载）模式下运行模型可能需要 32GB 显存。AMD Ryzen™ AI Max+ 395（128GB）处理器可以在完全卸载支持下运行 FLUX.Schnell 等模型。

精度和量化怎么样？

量化将 AI 模型的权重从较高精度格式（例如 FP16）转换为较低精度格式（例如 Q8 或更低）。不同的量化类型（即使在相同的bit位深度下）在特性、精度或性能上也不尽相同。

LLM 量化最常见（通常也是部署最广泛的）形式是 4 位。在本地解决方案中，以及通过广泛采用的 llama.cpp 框架，它采用 Q4 KM 量化的形式。该标准的确立可以追溯到以下 llama.cpp 文档（创建于 2023 年），该文档将 4 位（特别是 Q4 KM）确立为 LLM 量化的“最低可接受”标准。

量化 --帮助

允许的量化类型：
2 或 Q4_0：3.50G（容量），+0.2499 ppl @ 7B（参数量） - 小，质量损失非常高 - 传统，倾向改为使用 Q3_K_M
3 或 Q4_1：3.90G，+0.1846 ppl @ 7B - 小，质量损失很大 - 传统，倾向改为使用 Q3_K_L
8 或 Q5_0：4.30G，+0.0796 ppl @ 7B - 中等，质量均衡 - 传统，倾向改为使用 Q4_K_M
9 或 Q5_1：4.70G，+0.0415 ppl @ 7B - 中等，低质量损失 - 传统，倾向改为使用 Q5_K_M
10 或 Q2_K：2.67G，+0.8698 ppl @ 7B - 最小，质量损失极端 - 不推荐
12 或 Q3_K：Q3_K_M 的别名
11 或 Q3_K_S ：2.75G，+0.5505 ppl @ 7B - 非常小，非常高的质量损失
12 或 Q3_K_M ：3.06G，+0.2437 ppl @ 7B - 非常小，非常高的质量损失
13 或 Q3_K_L ：3.35G，+0.1803 ppl @ 7B - 小，相当大的质量损失
15 或 Q4_K ：Q4_K_M 的别名
14 或 Q4_K_S ：3.56G，+0.1149 ppl @ 7B - 小，显著的质量损失
15 或 Q4_K_M ：3.80G，+0.0535 ppl @ 7B - 中等，均衡的质量 - *推荐*
17 或 Q5_K ： Q5_K_M
16 或 Q5_K_S : 4.33G, +0.0353 ppl @ 7B - 较大，低质量损失 - *推荐*
17 或 Q5_K_M : 4.45G, +0.0142 ppl @ 7B - 较大，非常低的质量损失 - *推荐*
18 或 Q6_K : 5.15G, +0.0044 ppl @ 7B - 非常大，极低的质量损失
7 或 Q8_0 : 6.70G, +0.0004 ppl @ 7B - 非常大，极低的质量损失 - 不推荐
1 或 F16 : 13.00G @ 7B - 极大，几乎没有质量损失 - 不推荐
0 或 F32 : 26.00G @ 7B - 绝对巨大，无损 - 不推荐

注：以上指原生FP32精度的模型，像原生FP8的DeepSeek模型，通常认为Q8或者Q4_K_M的质量也可以接受。

我们可以看到，困惑度损失（简单来说，就是衡量模型在预测下一个标记时的困惑程度）对于 Q4 KM 中的大多数任务来说都是可以接受的，并且在本文档中也是官方推荐的。

请注意，Llama.cpp 通常与 GGUF 结合使用。GGUF 是由@ggerganov （Llama.cpp 框架的开发者之一）开发的二进制格式，它将量化与数据类型的硬件支持解耦。有兴趣了解 GGUF 如何在没有硬件支持的情况下部署数据类型的读者，可以访问这个网站（https://huggingface.co/docs/hub/en/gguf）阅读技术文档。

然而，本文档是在模型能够执行高度复杂的编码任务之前创建的。因此，虽然 Q4 KM（用于 llama.cpp）完全可以用于与 LLM 的通用交互，但它在编程（Coding）示例中的响应开始变差（除非你通过增加非常大的参数大小来弥补这一点）。因此，Q6 通常是编程的最低可行级别——Q8 提供几乎无损的质量（尽管内存需求相应增加，性能也会相应下降）。需要注意的是，Gemma 3 模型中使用的专用量化技术（例如谷歌的 4 位 QAT（量化感知训练））在困惑度损失方面优于 Q4 KM，但并未得到广泛支持，也未在绝大多数模型中可用。
简而言之：普通用户使用 Q4 KM 即可，但需要模型答案高度准确（例如编程或放射学/医疗影像识别）的用户应至少使用 Q6（当 QAT 等专用权重不可用时）或升级到可用的最大参数大小。

什么是模型上下文协议 (MCP) 和工具调用？

模型上下文协议或 MCP 允许 LLM 使用“工具”——这些工具可以是简单的打开浏览器或读取文件的功能，也可以是复杂的 API 访问，还可以是调用时可以执行预定义编程的代码片段。

此术语通常用于代理工作流程。Anthropic 标准化了这项“插件”功能，使 LLM 能够成为“主动”代理，能够在您的个人系统本地或在线执行更改，而不受聊天窗口的限制。

MCP 安装通常由底层代码块组成 - 无论是 NPX 包、UV 还是基于 Docker 的路径，以及指导 LLM 如何使用工具的说明。

后半部分值得关注——因为使用任何 MCP 通常都会在输入提示中添加数千个文档，作为 LLM 理解和使用该工具所需的文档——这会显著增加 LLM 的提示处理时间。此外，工具调用返回值会逐渐向 LLM 需要解析的上下文中添加数万个 token。因此，同时运行多个工具调用会给 LLM 增加大量的 token 处理量，需要大量内存，并使工作负载几乎完全依赖于计算。

并非所有 LLM 都能熟练地阅读、理解指令并熟练使用工具（或知道如何处理工具调用返回的结果），因此你的学习进度会因模型类型而异。一般来说，最近发布的 LLM 课程特别注重工具调用能力，应该会取得不错的成绩。

您可以在此处找到基于 Docker 的 MCP 实现的精选列表：https://hub.docker.com/mcp（这个对网络访问的限制，大家都懂吧）