来源：微信公众号「飞翔的 SA」
原文链接：https://mp.weixin.qq.com/s/kvHz-OiMli0LMZEDs-c4VA
项目 GitHub：https://github.com/Luce-Org/lucebox-hub
整理：红龙 🐉

Lucebox：让 RTX 3090 跑出 207 tok/s 的 Qwen3.5-27B 推理神器

你是不是也觉得本地跑大模型太难？要么显卡不够强，要么速度慢到抓狂。今天给大家介绍一个硬核 github 开源项目——Lucebox。基于 DFlash+ggml 的纯 C++ 推理引擎，让 Qwen3.5-27B 在单张 RTX 3090 24GB 显卡上，跑出峰值 207.6 tok/s 的恐怖速度！

它的核心思路：不等待更好的芯片，直接重写软件。针对单款显卡、单个模型深度定制，做到极致性能、极致省电。

一、Lucebox 到底是什么？

Lucebox 是一个开源 LLM 推理项目，目前已开放两大核心模块：

Megakernel：Qwen3.5-0.8B 单内核加速
DFlash：Qwen3.5-27B speculative 解码优化

二、两大神器，性能炸裂

1️⃣ Megakernel：小模型也有大能量

专为 RTX 3090 优化 Qwen3.5-0.8B，把 24 层网络塞进 单个 CUDA 内核，无 CPU 来回跳转，一次调度跑完。

实测数据：

预填充速度：37800 tokens/s
解码速度：413 tokens/s
能效：1.87 tok/J，对比 llama.cpp BF16，能效提升超 2 倍

2️⃣ DFlash：24GB 显存跑 27B 大模型

这是最惊艳的部分。单张 RTX 3090，24GB 显存，直接跑 Qwen3.5-27B，还能支持 128K 上下文！

核心技术：

DFlash speculative 解码
DDTree 树状验证
GGUF 量化适配

实测速度：

峰值速度：207.6 tok/s（AR 模式 38.0 tok/s，5.46x 加速）
HumanEval：129.5 tokens/s
比普通自回归快 3.43 倍
比 SGLang AWQ 快 2.8 倍

三、为什么要做这件事？

过去通用框架什么都能跑，但什么都跑不快，大量显卡性能被白白浪费。Lucebox 用 AI 辅助开发，把手写优化成本大幅降低。

目标很简单：本地 AI 不再是高端玩家特权，普通显卡也能私密、免费、流畅跑大模型。

四、谁能用？怎么跑？

环境要求

NVIDIA GPU：sm_86+（3090/4090/A10/A40），24GB+ 显存
CUDA 12+、CMake 3.18+、Python 3
磁盘：约 80GB

快速开始

bash

# 1. 克隆代码
git clone --recurse-submodules https://github.com/Luce-Org/lucebox-hub
cd lucebox-hub/dflash

# 2. 编译
cmake -B build -S . -DCMAKE_CUDA_ARCHITECTURES=86 -DCMAKE_BUILD_TYPE=Release
cmake --build build --target test_dflash -j

# 3. 下载模型
# 目标模型 Qwen3.5-27B Q4_K_M (~16GB)
huggingface-cli download unsloth/Qwen3.5-27B-GGUF Qwen3.5-27B-Q4_K_M.gguf --local-dir models/

# DFlash 草稿模型 (~3.46GB)
huggingface-cli download z-lab/Qwen3.5-27B-DFlash model.safetensors --local-dir models/draft/

# 4. 快速生成
python3 scripts/run.py --prompt "def fibonacci(n):"

# 5. 多轮聊天
python3 examples/chat.py

# 6. 启动 OpenAI 兼容服务
python3 -m venv .venv
.venv/bin/pip install fastapi uvicorn transformers jinja2
.venv/bin/python scripts/server.py --port 8000 --daemon

128K 长上下文模式

bash

DFLASH27B_KV_Q4=1 DFLASH27B_PREFILL_UBATCH=16 \
build/test_dflash models/Qwen3.5-27B-Q4_K_M.gguf \
models/draft/model.safetensors /tmp/long_prompt.bin 64 /tmp/out.bin \
--fast-rollback --ddtree --ddtree-budget=16 --max-ctx=131072

五、未来规划

时间	计划
Q1 2026	RTX 3090 深度优化
Q2 2026	Ryzen AI MAX+ 优化
Q2 2026	CPU+GPU 异构加速
Q3 2026	Lucebox 正式版发布

写在最后

Lucebox 不只是优化工具，它重新定义本地大模型的可能性。让老显卡重生，让本地 AI 普惠更多人。对本地部署、大模型推理感兴趣的朋友，一定要去试试。

版权声明：本文内容整理自微信公众号「飞翔的 SA」，仅做排版整理，主体内容未做篡改。

Lucebox：让 RTX 3090 跑出 207 tok/s 的 Qwen3.5-27B 推理神器 ​

一、Lucebox 到底是什么？ ​

二、两大神器，性能炸裂 ​

1️⃣ Megakernel：小模型也有大能量 ​

2️⃣ DFlash：24GB 显存跑 27B 大模型 ​

三、为什么要做这件事？ ​

四、谁能用？怎么跑？ ​

环境要求 ​

快速开始 ​

128K 长上下文模式 ​

五、未来规划 ​

写在最后 ​