Qwen 本地部署记录
Qwen 本地部署记录
最近开始正式折腾本地大模型。
相比直接使用在线 API,本地部署最大的优点其实是:
- 隐私可控
- 不受网络限制
- 响应速度稳定
- 可以自由改参数
- 能接各种 Agent 系统
这次主要使用:
1 | Qwen + llama.cpp + RTX4060 Laptop |
进行本地部署。
一、设备环境
目前使用的设备:
- Honor MagicBook Pro 16
- RTX 4060 Laptop GPU(8GB)
- Windows 11
- WSL2 Ubuntu 22.04
二、为什么选择 Qwen
一开始其实对比过很多模型:
- DeepSeek
- Llama
- Mistral
- Qwen
最后还是选择了 Qwen。
主要原因:
1. 中文能力强
Qwen 的中文表现确实很好。
尤其:
- 长文本
- 中文逻辑
- 技术问题
明显比很多模型更自然。
2. 本地部署生态成熟
目前:
- GGUF
- llama.cpp
- Ollama
对 Qwen 支持都很好。
部署方便很多。
3. 参数规模适合 4060 Laptop
因为只有 8GB 显存。
所以:
- 70B 基本不现实
- 32B 边缘可跑
- 14B / 7B 更舒服
后面主要使用:
1 | Qwen3.5-27B-Q4_K_M.gguf |
进行测试。
三、部署 llama.cpp
1. 克隆项目
1 | git clone https://github.com/ggerganov/llama.cpp |
2. 编译 CUDA 版本
使用:
1 | cmake -B build -DGGML_CUDA=ON |
四、踩过的坑
1. CUDA 找不到
最开始:
1 | nvcc not found |
后面发现:
CUDA 没正确配置环境变量。
2. Visual Studio 编译问题
还遇到:
1 | No CMAKE_ASM_COMPILER could be found |
后来安装:
- Desktop development with C++
- MSVC
- Windows SDK
才正常。
五、模型下载
模型使用:
1 | Qwen3.5-27B-GGUF |
下载:
- Q4_K_M
- Q5_K_M
两个量化版本。
六、启动参数
目前最常用:
1 | llama-server ^ |
七、参数说明
1. ngl
GPU 层数。
1 | -ngl 99 |
代表尽量全部放 GPU。
2. c
上下文长度。
1 | -c 8192 |
代表:
8K 上下文。
3. t
CPU 线程数。
1 | -t 22 |
对应 CPU 线程数量。
八、关闭思考模式
后面发现:
Qwen 思考模式虽然强。
但:
- 输出慢
- token 消耗大
- 有时太啰嗦
后面默认关闭:
1 | --chat-template-kwargs "{\"enable_thinking\":false}" |
九、实际体验
目前:
- 日常聊天没问题
- 技术问答效果很好
- 中文体验优秀
但:
27B 在 8GB 显存下:
还是有一定压力。


