Qwen 3.6 27B：一台消费级显卡就能跑起来的旗舰级编程模型

原文来源：Qwen Blog — Qwen 3.6 27B 是一个 270 亿参数的稠密多模态模型，在编程能力上全面超越 397B 参数的上一代旗舰，同时部署门槛极低。

引言

2026 年 4 月，阿里云 Qwen 团队发布了 Qwen3.6-27B，一个 270 亿参数的稠密多模态大模型。这条消息迅速引爆了 Hacker News，斩获 580 票和 498 条评论，成为当日的社区最热话题。

为什么这个 27B 的模型能获得如此关注？答案很简单：它在所有编程基准测试上超越了上一代旗舰 Qwen3.5-397B-A17B——一个总参数 3970 亿、活跃参数 170 亿的 MoE 模型。一个体量仅为其 1/15 的稠密模型，在代码能力上全面反超，这在 AI 领域并不多见。

更令人兴奋的是，它的部署极其简单：不需要 MoE 路由的复杂推理框架，不需要多卡互联，一台配备 24GB 显存的消费级显卡就足以运行。这意味着个人开发者和中小团队也能拥有旗舰级的 AI 编程助手。

—— 广告 ——

性能评测：小身材，大能量

编程与 Agent 基准

Qwen3.6-27B 在多个权威编程和 Agent 基准测试中全面超越 Qwen3.5-397B-A17B，甚至在许多指标上逼近甚至超过了 Claude 4.5 Opus 等闭源模型。

基准测试	Qwen3.5-397B-A17B	Qwen3.6-27B	Gemma4-31B	Claude 4.5 Opus
SWE-bench Verified	76.2	77.2	52.0	80.9
SWE-bench Pro	50.9	53.5	35.7	57.1
Terminal-Bench 2.0	52.5	59.3	42.9	59.3
SkillsBench Avg5	30.0	48.2	23.6	45.3
GPQA Diamond	88.4	87.8	84.3	87.0
AIME26	93.3	94.1	89.2	95.1
LiveCodeBench v6	—	83.9	80.0	84.8

从数据可以看出：

SWE-bench Verified 是评测 AI 解决真实 GitHub Issue 能力的黄金标准。Qwen3.6-27B 以 77.2% 的成绩领先上一代旗舰 1 个百分点，同时远超同体量的 Gemma4-31B（52.0%）。
Terminal-Bench 2.0 测试的是模型在终端环境中执行复杂任务的能力。Qwen3.6-27B 拿到 59.3，与 Claude 4.5 Opus 持平，比 Qwen3.5-397B 高出近 7 个百分点。
SkillsBench Avg5 上更是有质的飞跃——30.0 到 48.2，提升了 60% 以上。这个基准测试涵盖五个不同的编程技能维度，包括前端开发、后端开发、代码审查等。

数学与推理

在数学推理方面同样亮眼：

AIME26（2026 年美国数学邀请赛）：94.1%，接近 Claude 4.5 Opus 的 95.1%
GPQA Diamond（研究生级别问答）：87.8%，与 Claude 4.5 Opus 持平甚至略高

多模态能力

Qwen3.6-27B 是一个原生多模态模型，支持文本、图像和视频输入。这意味着它不仅能看代码，还能看图、看视频，进行多模态推理。

基准测试	Qwen3.6-27B	Qwen3.5-27B	Gemma4-31B
MMMU	82.9	82.3	80.4
MathVista mini	87.4	87.8	79.3
RealWorldQA	84.1	83.7	72.3
VideoMME (w/ sub.)	87.7	87.0	—
AndroidWorld	70.3	64.2	—

MMMU（多模态理解基准）达到 82.9，AndroidWorld（Android Agent 任务）达到 70.3，比上一代提升了 6 个百分点。这意味着在 Agent 化编程场景中，模型不仅能看懂代码报错截图、UI 设计稿，还能理解视频演示，这对前端开发和自动化测试尤其有用。

技术亮点

稠密架构：简单即优势

Qwen3.6-27B 选择的是纯稠密架构（Dense Architecture），而非 MoE（混合专家）。这带来几个关键优势：

部署简单：不需要 MoE 的专家路由逻辑，主流推理框架（vLLM、SGLang、KTransformers、Ollama）开箱即用
硬件门槛低：Q4 量化后仅需约 16GB 显存，一台 RTX 4090（24GB）或 RTX 3090（24GB）即可流畅运行
推理稳定：MoE 模型有时会出现专家负载不均的问题，稠密模型没有这个困扰
多模态统一架构：同一个模型权重同时支持文本、图像、视频，无需切换

思考与非思考双模式

Qwen3.6-27B 支持思考模式（Thinking Mode）和非思考模式（Non-Thinking Mode），在同一个检查点中即可切换。

思考模式：模型会先生成内部推理链条（Chain-of-Thought），再给出最终答案。适合复杂编程任务、数学推理等需要深度思考的场景。
非思考模式：直接输出答案，速度快、延迟低。适合简单问答、代码补全等场景。

preserve_thinking 特性

这是 Qwen3.6 系列引入的一个非常实用的新特性。在 Agent 任务中，模型往往需要多轮交互。开启 preserve_thinking 后，模型会保留历史消息中的推理过程，避免在多轮对话中重复思考相同的问题。

对于 Agent 编程任务，Qwen 官方强烈建议开启 preserve_thinking。

超长上下文：262K 原生，可扩展至 1M

Qwen3.6-27B 原生支持 262,144 token 的上下文长度，通过扩展技术可达约 1,010,000 token。这意味着一整个大型代码仓库都可以放入上下文窗口中，模型可以理解整个项目的架构和依赖关系。

混合注意力架构

Qwen3.6-27B 采用了创新的 Gated Delta Networks 混合注意力机制，每 4 层中前 3 层使用 Gated DeltaNet（线性注意力），第 4 层使用 Gated Attention（Softmax 注意力）。这种设计既保留了传统注意力机制的精度，又通过线性注意力大幅降低了长序列计算的开销。

部署指南

硬件需求

最小配置（Q4量化）：16GB 显存（RTX 4060 Ti 16GB、RTX 3090、RTX 4090）
推荐配置（FP16/BF16）：24GB 显存（RTX 3090、RTX 4090、A10G）
多卡配置：2 × RTX 3090 即可运行全精度

本地推理框架

SGLang（推荐）

code

uv pip install sglang[all]
python -m sglang.launch_server \
  --model-path Qwen/Qwen3.6-27B \
  --port 8000 \
  --context-length 262144 \
  --reasoning-parser qwen3

启用工具调用和 MTP（多 token 预测）加速：

code

python -m sglang.launch_server \
  --model-path Qwen/Qwen3.6-27B \
  --port 8000 \
  --context-length 262144 \
  --reasoning-parser qwen3 \
  --tool-call-parser qwen3_coder \
  --speculative-algo NEXTN \
  --speculative-num-steps 3 \
  --speculative-eagle-topk 1 \
  --speculative-num-draft-tokens 4

vLLM

code

uv pip install vllm --torch-backend=auto
vllm serve Qwen/Qwen3.6-27B \
  --port 8000 \
  --tensor-parallel-size 1 \
  --max-model-len 262144 \
  --reasoning-parser qwen3

Ollama（最简单）

code

ollama pull qwen3.6:27b

集成到编程助手

OpenClaw（原 Moltbot/Clawdbot）

code

curl -fsSL https://molt.bot/install.sh | bash
export DASHSCOPE_API_KEY=<your_api_key>
openclaw dashboard

然后在配置文件 ~/.openclaw/openclaw.json 中添加 Model Studio 提供商，模型 ID 设为 qwen3.6-27b。

Qwen Code

code

npm install -g @qwen-code/qwen-code@latest
qwen

与 Claude Code 配合

code

npm install -g @anthropic-ai/claude-code
export ANTHROPIC_MODEL="qwen3.6-27b"
export ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropic
export ANTHROPIC_AUTH_TOKEN=<your_api_key>
claude

API 使用

OpenAI 兼容接口：

code

from openai import OpenAI
import os
 
api_key = os.environ.get("DASHSCOPE_API_KEY")
client = OpenAI(
    api_key=api_key,
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)
 
completion = client.chat.completions.create(
    model="qwen3.6-27b",
    messages=[{"role": "user", "content": "用 Python 写一个快速排序"}],
    extra_body={
        "enable_thinking": True,
        # "preserve_thinking": True,  # Agent 任务推荐开启
    },
    stream=True,
)

社区反响

Qwen3.6-27B 在 Hacker News 上获得了压倒性的正面评价。580 票使其成为当日的热门第一。社区关注的焦点主要集中在：

性价比惊人：27B 的稠密模型干翻了 397B 的 MoE 旗舰，这种效率提升令人印象深刻
本地部署友好：一台 RTX 3090（二手约 3000-4000 元）就能运行，让个人开发者也能拥有旗舰级编程助手
真正的多模态：不是简单的文本模型加上图像编码器，而是真正统一的多模态理解能力
开源彻底：权重完全开放，Hugging Face 和 ModelScope 均可下载，Apache 2.0 许可证

Reddit 上 r/LocalLLaMA 社区的讨论同样热烈，用户普遍认为 Qwen3.6-27B 是本地部署编程模型的新标杆，甚至有人将其称为"最强 30B 以下编程模型"。

总结与展望

Qwen3.6-27B 代表着一个重要的趋势：在 AI 模型竞赛中，规模并不是唯一的方向。通过精细的数据筛选、创新的架构设计和针对性的训练策略，一个 27B 的稠密模型完全可以在实际应用中超越比自己大 15 倍的 MoE 模型。

对于开发者社区来说，这意味着：

编程助手平民化：旗舰级 AI 编程能力不再是云端大模型的专利
隐私与可控：本地部署意味着代码不会离开自己的机器，对注重数据安全的企业尤其重要
延迟更低：本地推理消除了网络延迟，交互体验更流畅
离线可用：在没有网络的环境下也能获得顶级 AI 编程帮助

Qwen3.6 系列还包括 35B-A3B 的 MoE 变体（3B 活跃参数，速度更快）和多款纯文本模型，但在编程和 Agent 任务上，27B 稠密版提供了最佳的"性能-部署难度"平衡点。

如果你正在寻找一个能在自己电脑上跑起来的顶级编程 AI，Qwen3.6-27B 是目前最值得关注的选择之一。下载权重、配置推理环境、集成到你的编程工作流——整个过程可能在半小时内完成，而你将获得的是一台与你能力互补的 AI 编程伙伴。

资源链接

Qwen 3.6 27B：一台消费级显卡就能跑起来的旗舰级编程模型

引言

性能评测：小身材，大能量

编程与 Agent 基准

数学与推理

多模态能力

技术亮点

稠密架构：简单即优势

思考与非思考双模式

preserve_thinking 特性

超长上下文：262K 原生，可扩展至 1M

混合注意力架构

部署指南

硬件需求

本地推理框架

集成到编程助手

API 使用

社区反响

总结与展望

相关文章

Ornith-1.0：首个自脚手架开源编程模型，397B 超越 Claude Opus 4.7

运行本地大模型已经够好了：2026 年本地 LLM 生态的里程碑

MiniMax M3：首个将前沿编码、百万上下文和原生多模态集于一体的开源模型