大家好,我是 Ai 学习的老章Kimi 也算我们的常客,尤其是 K2 模型,十分亮眼,目前也是我 Agent 常配模型之一昨晚Kimi-K2-Thin...
2025-11-08 0
大家好,我是 Ai 学习的老章
Kimi 也算我们的常客,尤其是 K2 模型,十分亮眼,目前也是我 Agent 常配模型之一
昨晚Kimi-K2-Thinking 终于来了!只在官方 API 文档中更新了模型信息,我也做了一个小测试,还不错,刚刚模型文件开源,技术博客也发布了,本文做个梳理。
kimi-k2-thinking 模型是具有通用 Agentic 能力和推理能力的思考模型,它擅长深度推理,并可通过多步工具调用,帮助解决各类难题。
什么让它与众不同:
⚡ 原生 INT4 量化 → 2 倍快速推理
占用内存减半,无精度损失
256K 上下文,支持 200-300 次工具调用
Kimi K2 Thinking 上下文长度为 256k。(从常规的 Kimi K2 的 128k 提升而来),总参数 1T,激活参数 32B
官方释放的基准测试结果:
在 HLE (44.9%) 和 BrowseComp (60.2%) 上达到 SOTA
最多可以执行 200 – 300 个连续的工具调用 无需人工干预
在推理、自主搜索和编程方面表现出色
需要指出的是,Kimi 非常自信的与最强的闭源模型进行对比,在多个基准中结果反超闭源模型。
下面是更全面的对比结果,确实不需要与其他开源模型比参数了:
artificialanalysis.ai 也对 Kimi K2 Thinking 做了基准测试,结果也十分优秀
➤ Kimi K2 Thinking 在 ²-Bench Telecom 代理工具使用基准测试中获得了 93% 的成绩,这是一个 agentic tool 基准测试,模型作为客户服务代理进行操作。在长期代理上下文中的工具使用是 Kimi K2 Instruct 的强项,而新的 Thinking 变体在此方面取得了显著进步。
K2 Thinking 的模型文件只有 594GB
https://huggingface.co/moonshotai/Kimi-K2-Thinking
K2 Instruct 和 K2 Instruct 0905 的大小则超过 1TB,为何 Thinking 之后 594GB 呢?
这是因为 K2 Thinking 使用 INT4 精度而非 FP8,Moonshot 在后训练阶段使用量化感知训练来实现这一点,这意味着推理和训练的效率提升。使用 INT4 的一个潜在原因是,Blackwell 的 NVIDIA GPU 不支持 FP4,因此 INT4 更适合在较陈旧的硬件上实现效率提升。
vLLM 0Day 支持 K2 Thinking 的部署,命令如下
# 安装uv venvsource .venv/bin/activateuv pip install -U vllm --pre --extra-index-url https://wheels.vllm.ai/nightly --extra-index-url https://download.pytorch.org/whl/cu129 --index-strategy unsafe-best-match # for xformers# 部署vllm serve moonshotai/Kimi-K2-Thinking \ --trust-remote-code \ --tensor-parallel-size 8 \ --enable-auto-tool-choice \ --tool-call-parser kimi_k2 \ --reasoning-parser kimi_k2 \## `--reasoning-parser` 标志指定用于从模型输出中提取推理内容的推理解析器。要启动 Kimi-K2-Thinking 需要 8 个 141GB 的 H200/H20,成本还是蛮高的,不过即便再量化,估计向下空间也不大了吧?已经 int4 了,还能怎样。
推荐使用 解码上下文(DCP)并行部署,添加 --decode-context-parallel-size number 来启用解码上下文并行:
vllm serve moonshotai/Kimi-K2-Thinking \ --trust-remote-code \ --tensor-parallel-size 8 \ --decode-context-parallel-size 8 \ --enable-auto-tool-choice \ --tool-call-parser kimi_k2 \ --reasoning-parser kimi_k2 \配合 DCP 后,优势显著(43% 更快的 Token 生成,26% 更高的吞吐量),同时几乎没有缺点(中位数延迟改善微乎其微)
指标TP8TP8+DCP8变更改进 (%) 请求吞吐量 (req/s)1.251.57+0.32+25.6%输出标记吞吐量 (tok/s)485.78695.13+209.35+43.1%平均 TTFT(秒)271.2227.8-43.4+16.0%中位数 TTFT(秒)227.4227.1-0.3+0.1%
后面我会拿之前的用例详细测试一下,同时也把 Claude code 后台模型改成 K2 Thinking 多用一用
如有能再量化同时保障效果不打大折扣,把部署成本控制在 4 卡就好了,我也可以本地部署试试了。
相关文章
大家好,我是 Ai 学习的老章Kimi 也算我们的常客,尤其是 K2 模型,十分亮眼,目前也是我 Agent 常配模型之一昨晚Kimi-K2-Thin...
2025-11-08 0
本来中美在芯片供应链上刚有点缓和迹象,荷兰那边就突然插一脚,直接对安世半导体下手。安世这家公司,大家知道吧,就是原来飞利浦的半导体部门,后来被中国闻泰...
2025-11-08 1
2025年11月6日,中俄官宣北斗与格洛纳斯深度兼容合作,中国导航技术再获全球认可。但鲜有人知,北斗曾因某国高强度电磁干扰濒临停滞,国际频率资源启用期...
2025-11-08 3
首先说一下,这款神器是手机端的,支持任何网页版,APP,小程序、群链接等等形式的平台,全程记录,全自动识别,悬浮窗显示,所有微信小程序和app平台,安...
2025-11-08 14
燃气热水器十大品牌 燃气热水器品牌有美的、林内、史密斯、万和、海尔、能率、万家乐、樱花卫厨、卡萨帝和华帝。万家乐(中国名牌,中国驰名商标,燃气热水器十...
2025-11-08 78
静脉曲张袜什么牌子的好 丝维亚 品牌介绍:丝维亚是全球知名的医疗保健袜品牌,始创于瑞士,从1864年成立至今,一直专注于静脉曲张袜、保健袜、运动休闲袜...
2025-11-08 125
家庭防盗报警器哪个好 1、网络视频报警器,发生警情时视频报警器发送视频报警到用户手机,用户接到警情后能够手机查看现场情况,并远程喊话警告小偷,视频报警...
2025-11-08 42
乳胶漆价格和品牌推荐 1、装修还不知道选什么涂料品牌的朋友看过来,我给大家整理了十大品牌的乳胶漆的价格表,大家可以根据需求对比选购。2、乳胶漆的价格因...
2025-11-08 50
发表评论