Qwen 本地部署记录

最近开始正式折腾本地大模型。

相比直接使用在线 API,本地部署最大的优点其实是:

  • 隐私可控
  • 不受网络限制
  • 响应速度稳定
  • 可以自由改参数
  • 能接各种 Agent 系统

这次主要使用:

1
Qwen + llama.cpp + RTX4060 Laptop

进行本地部署。

一、设备环境

目前使用的设备:

  • Honor MagicBook Pro 16
  • RTX 4060 Laptop GPU(8GB)
  • Windows 11
  • WSL2 Ubuntu 22.04

二、为什么选择 Qwen

一开始其实对比过很多模型:

  • DeepSeek
  • Llama
  • Mistral
  • Qwen

最后还是选择了 Qwen。

主要原因:

1. 中文能力强

Qwen 的中文表现确实很好。

尤其:

  • 长文本
  • 中文逻辑
  • 技术问题

明显比很多模型更自然。

2. 本地部署生态成熟

目前:

  • GGUF
  • llama.cpp
  • Ollama

对 Qwen 支持都很好。

部署方便很多。

3. 参数规模适合 4060 Laptop

因为只有 8GB 显存。

所以:

  • 70B 基本不现实
  • 32B 边缘可跑
  • 14B / 7B 更舒服

后面主要使用:

1
Qwen3.5-27B-Q4_K_M.gguf

进行测试。

三、部署 llama.cpp

1. 克隆项目

1
2
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp

2. 编译 CUDA 版本

使用:

1
2
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release

四、踩过的坑

1. CUDA 找不到

最开始:

1
nvcc not found

后面发现:

CUDA 没正确配置环境变量。

2. Visual Studio 编译问题

还遇到:

1
No CMAKE_ASM_COMPILER could be found

后来安装:

  • Desktop development with C++
  • MSVC
  • Windows SDK

才正常。

五、模型下载

模型使用:

1
Qwen3.5-27B-GGUF

下载:

  • Q4_K_M
  • Q5_K_M

两个量化版本。

六、启动参数

目前最常用:

1
2
3
4
5
6
7
llama-server ^
-m Qwen3.5-27B-Q4_K_M.gguf ^
-ngl 99 ^
-c 8192 ^
-t 22 ^
--host 0.0.0.0 ^
--port 8000

七、参数说明

1. ngl

GPU 层数。

1
-ngl 99

代表尽量全部放 GPU。

2. c

上下文长度。

1
-c 8192

代表:

8K 上下文。

3. t

CPU 线程数。

1
-t 22

对应 CPU 线程数量。

八、关闭思考模式

后面发现:

Qwen 思考模式虽然强。

但:

  • 输出慢
  • token 消耗大
  • 有时太啰嗦

后面默认关闭:

1
--chat-template-kwargs "{\"enable_thinking\":false}"

九、实际体验

目前:

  • 日常聊天没问题
  • 技术问答效果很好
  • 中文体验优秀

但:

27B 在 8GB 显存下:

还是有一定压力。