
Qwen 3.6 27B:一台消费级显卡就能跑起来的旗舰级编程模型
Qwen 3.6 27B 稠密模型在编程能力上超越了上一代 397B MoE 旗舰,而且部署简单——一台 24GB 显存显卡就够。HN 当日最热,580 票。
原文来源:Qwen Blog — Qwen 3.6 27B 是一个 270 亿参数的稠密多模态模型,在编程能力上全面超越 397B 参数的上一代旗舰,同时部署门槛极低。
引言
2026 年 4 月,阿里云 Qwen 团队发布了 Qwen3.6-27B,一个 270 亿参数的稠密多模态大模型。这条消息迅速引爆了 Hacker News,斩获 580 票和 498 条评论,成为当日的社区最热话题。
为什么这个 27B 的模型能获得如此关注?答案很简单:它在所有编程基准测试上超越了上一代旗舰 Qwen3.5-397B-A17B——一个总参数 3970 亿、活跃参数 170 亿的 MoE 模型。一个体量仅为其 1/15 的稠密模型,在代码能力上全面反超,这在 AI 领域并不多见。
更令人兴奋的是,它的部署极其简单:不需要 MoE 路由的复杂推理框架,不需要多卡互联,一台配备 24GB 显存的消费级显卡就足以运行。这意味着个人开发者和中小团队也能拥有旗舰级的 AI 编程助手。
—— 广告 ——
性能评测:小身材,大能量
编程与 Agent 基准
Qwen3.6-27B 在多个权威编程和 Agent 基准测试中全面超越 Qwen3.5-397B-A17B,甚至在许多指标上逼近甚至超过了 Claude 4.5 Opus 等闭源模型。
| 基准测试 | Qwen3.5-397B-A17B | Qwen3.6-27B | Gemma4-31B | Claude 4.5 Opus |
|---|---|---|---|---|
| SWE-bench Verified | 76.2 | 77.2 | 52.0 | 80.9 |
| SWE-bench Pro | 50.9 | 53.5 | 35.7 | 57.1 |
| Terminal-Bench 2.0 | 52.5 | 59.3 | 42.9 | 59.3 |
| SkillsBench Avg5 | 30.0 | 48.2 | 23.6 | 45.3 |
| GPQA Diamond | 88.4 | 87.8 | 84.3 | 87.0 |
| AIME26 | 93.3 | 94.1 | 89.2 | 95.1 |
| LiveCodeBench v6 | — | 83.9 | 80.0 | 84.8 |
从数据可以看出:
- SWE-bench Verified 是评测 AI 解决真实 GitHub Issue 能力的黄金标准。Qwen3.6-27B 以 77.2% 的成绩领先上一代旗舰 1 个百分点,同时远超同体量的 Gemma4-31B(52.0%)。
- Terminal-Bench 2.0 测试的是模型在终端环境中执行复杂任务的能力。Qwen3.6-27B 拿到 59.3,与 Claude 4.5 Opus 持平,比 Qwen3.5-397B 高出近 7 个百分点。
- SkillsBench Avg5 上更是有质的飞跃——30.0 到 48.2,提升了 60% 以上。这个基准测试涵盖五个不同的编程技能维度,包括前端开发、后端开发、代码审查等。
数学与推理
在数学推理方面同样亮眼:
- AIME26(2026 年美国数学邀请赛):94.1%,接近 Claude 4.5 Opus 的 95.1%
- GPQA Diamond(研究生级别问答):87.8%,与 Claude 4.5 Opus 持平甚至略高
多模态能力
Qwen3.6-27B 是一个原生多模态模型,支持文本、图像和视频输入。这意味着它不仅能看代码,还能看图、看视频,进行多模态推理。
| 基准测试 | Qwen3.6-27B | Qwen3.5-27B | Gemma4-31B |
|---|---|---|---|
| MMMU | 82.9 | 82.3 | 80.4 |
| MathVista mini | 87.4 | 87.8 | 79.3 |
| RealWorldQA | 84.1 | 83.7 | 72.3 |
| VideoMME (w/ sub.) | 87.7 | 87.0 | — |
| AndroidWorld | 70.3 | 64.2 | — |
MMMU(多模态理解基准)达到 82.9,AndroidWorld(Android Agent 任务)达到 70.3,比上一代提升了 6 个百分点。这意味着在 Agent 化编程场景中,模型不仅能看懂代码报错截图、UI 设计稿,还能理解视频演示,这对前端开发和自动化测试尤其有用。
技术亮点
稠密架构:简单即优势
Qwen3.6-27B 选择的是纯稠密架构(Dense Architecture),而非 MoE(混合专家)。这带来几个关键优势:
- 部署简单:不需要 MoE 的专家路由逻辑,主流推理框架(vLLM、SGLang、KTransformers、Ollama)开箱即用
- 硬件门槛低:Q4 量化后仅需约 16GB 显存,一台 RTX 4090(24GB)或 RTX 3090(24GB)即可流畅运行
- 推理稳定:MoE 模型有时会出现专家负载不均的问题,稠密模型没有这个困扰
- 多模态统一架构:同一个模型权重同时支持文本、图像、视频,无需切换
思考与非思考双模式
Qwen3.6-27B 支持思考模式(Thinking Mode)和非思考模式(Non-Thinking Mode),在同一个检查点中即可切换。
- 思考模式:模型会先生成内部推理链条(Chain-of-Thought),再给出最终答案。适合复杂编程任务、数学推理等需要深度思考的场景。
- 非思考模式:直接输出答案,速度快、延迟低。适合简单问答、代码补全等场景。
preserve_thinking 特性
这是 Qwen3.6 系列引入的一个非常实用的新特性。在 Agent 任务中,模型往往需要多轮交互。开启 preserve_thinking 后,模型会保留历史消息中的推理过程,避免在多轮对话中重复思考相同的问题。
对于 Agent 编程任务,Qwen 官方强烈建议开启 preserve_thinking。
超长上下文:262K 原生,可扩展至 1M
Qwen3.6-27B 原生支持 262,144 token 的上下文长度,通过扩展技术可达约 1,010,000 token。这意味着一整个大型代码仓库都可以放入上下文窗口中,模型可以理解整个项目的架构和依赖关系。
混合注意力架构
Qwen3.6-27B 采用了创新的 Gated Delta Networks 混合注意力机制,每 4 层中前 3 层使用 Gated DeltaNet(线性注意力),第 4 层使用 Gated Attention(Softmax 注意力)。这种设计既保留了传统注意力机制的精度,又通过线性注意力大幅降低了长序列计算的开销。
部署指南
硬件需求
- 最小配置(Q4量化):16GB 显存(RTX 4060 Ti 16GB、RTX 3090、RTX 4090)
- 推荐配置(FP16/BF16):24GB 显存(RTX 3090、RTX 4090、A10G)
- 多卡配置:2 × RTX 3090 即可运行全精度
本地推理框架
SGLang(推荐)
uv pip install sglang[all]
python -m sglang.launch_server \
--model-path Qwen/Qwen3.6-27B \
--port 8000 \
--context-length 262144 \
--reasoning-parser qwen3启用工具调用和 MTP(多 token 预测)加速:
python -m sglang.launch_server \
--model-path Qwen/Qwen3.6-27B \
--port 8000 \
--context-length 262144 \
--reasoning-parser qwen3 \
--tool-call-parser qwen3_coder \
--speculative-algo NEXTN \
--speculative-num-steps 3 \
--speculative-eagle-topk 1 \
--speculative-num-draft-tokens 4vLLM
uv pip install vllm --torch-backend=auto
vllm serve Qwen/Qwen3.6-27B \
--port 8000 \
--tensor-parallel-size 1 \
--max-model-len 262144 \
--reasoning-parser qwen3Ollama(最简单)
ollama pull qwen3.6:27b集成到编程助手
OpenClaw(原 Moltbot/Clawdbot)
curl -fsSL https://molt.bot/install.sh | bash
export DASHSCOPE_API_KEY=<your_api_key>
openclaw dashboard然后在配置文件 ~/.openclaw/openclaw.json 中添加 Model Studio 提供商,模型 ID 设为 qwen3.6-27b。
Qwen Code
npm install -g @qwen-code/qwen-code@latest
qwen与 Claude Code 配合
npm install -g @anthropic-ai/claude-code
export ANTHROPIC_MODEL="qwen3.6-27b"
export ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropic
export ANTHROPIC_AUTH_TOKEN=<your_api_key>
claudeAPI 使用
OpenAI 兼容接口:
from openai import OpenAI
import os
api_key = os.environ.get("DASHSCOPE_API_KEY")
client = OpenAI(
api_key=api_key,
base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)
completion = client.chat.completions.create(
model="qwen3.6-27b",
messages=[{"role": "user", "content": "用 Python 写一个快速排序"}],
extra_body={
"enable_thinking": True,
# "preserve_thinking": True, # Agent 任务推荐开启
},
stream=True,
)社区反响
Qwen3.6-27B 在 Hacker News 上获得了压倒性的正面评价。580 票使其成为当日的热门第一。社区关注的焦点主要集中在:
- 性价比惊人:27B 的稠密模型干翻了 397B 的 MoE 旗舰,这种效率提升令人印象深刻
- 本地部署友好:一台 RTX 3090(二手约 3000-4000 元)就能运行,让个人开发者也能拥有旗舰级编程助手
- 真正的多模态:不是简单的文本模型加上图像编码器,而是真正统一的多模态理解能力
- 开源彻底:权重完全开放,Hugging Face 和 ModelScope 均可下载,Apache 2.0 许可证
Reddit 上 r/LocalLLaMA 社区的讨论同样热烈,用户普遍认为 Qwen3.6-27B 是本地部署编程模型的新标杆,甚至有人将其称为"最强 30B 以下编程模型"。
总结与展望
Qwen3.6-27B 代表着一个重要的趋势:在 AI 模型竞赛中,规模并不是唯一的方向。通过精细的数据筛选、创新的架构设计和针对性的训练策略,一个 27B 的稠密模型完全可以在实际应用中超越比自己大 15 倍的 MoE 模型。
对于开发者社区来说,这意味着:
- 编程助手平民化:旗舰级 AI 编程能力不再是云端大模型的专利
- 隐私与可控:本地部署意味着代码不会离开自己的机器,对注重数据安全的企业尤其重要
- 延迟更低:本地推理消除了网络延迟,交互体验更流畅
- 离线可用:在没有网络的环境下也能获得顶级 AI 编程帮助
Qwen3.6 系列还包括 35B-A3B 的 MoE 变体(3B 活跃参数,速度更快)和多款纯文本模型,但在编程和 Agent 任务上,27B 稠密版提供了最佳的"性能-部署难度"平衡点。
如果你正在寻找一个能在自己电脑上跑起来的顶级编程 AI,Qwen3.6-27B 是目前最值得关注的选择之一。下载权重、配置推理环境、集成到你的编程工作流——整个过程可能在半小时内完成,而你将获得的是一台与你能力互补的 AI 编程伙伴。
资源链接
© 2026 四月 · CC BY-NC-SA 4.0
原文链接:https://www.aprilzz.com/ai/qwen36-27b-local-development
相关文章
Ornith-1.0:首个自脚手架开源编程模型,397B 超越 Claude Opus 4.7
DeepReinforce 开源 Ornith-1.0 模型族,9B 到 397B 全覆盖,核心创新是让模型学会自己生成编排逻辑。397B 版本在编程基准上超越 Claude Opus 4.7。
运行本地大模型已经够好了:2026 年本地 LLM 生态的里程碑
Vicki Boykis 实测表明,本地模型已可达到闭源旗舰模型 75% 的编码能力,Gemma 4 + LM Studio + Pi agent 的组合正在改变开发者工作流。
MiniMax M3:首个将前沿编码、百万上下文和原生多模态集于一体的开源模型
MiniMax M3 于 2026 年 6 月 1 日正式发布,是首个将前沿级编码能力、百万 token 上下文窗口和原生多模态能力集于一体的开源权重模型。MSA 稀疏注意力架构将超长上下文推理成本降至传统的 1/20。