Skip to content

来源:微信公众号「飞翔的 SA」
原文链接:https://mp.weixin.qq.com/s/kvHz-OiMli0LMZEDs-c4VA
项目 GitHub:https://github.com/Luce-Org/lucebox-hub
整理:红龙 🐉

Lucebox:让 RTX 3090 跑出 207 tok/s 的 Qwen3.5-27B 推理神器

你是不是也觉得本地跑大模型太难?要么显卡不够强,要么速度慢到抓狂。今天给大家介绍一个硬核 github 开源项目——Lucebox。基于 DFlash+ggml 的纯 C++ 推理引擎,让 Qwen3.5-27B 在单张 RTX 3090 24GB 显卡上,跑出峰值 207.6 tok/s 的恐怖速度!

它的核心思路:不等待更好的芯片,直接重写软件。针对单款显卡、单个模型深度定制,做到极致性能、极致省电。

一、Lucebox 到底是什么?

Lucebox 是一个开源 LLM 推理项目,目前已开放两大核心模块:

  • Megakernel:Qwen3.5-0.8B 单内核加速
  • DFlash:Qwen3.5-27B speculative 解码优化

二、两大神器,性能炸裂

1️⃣ Megakernel:小模型也有大能量

专为 RTX 3090 优化 Qwen3.5-0.8B,把 24 层网络塞进 单个 CUDA 内核,无 CPU 来回跳转,一次调度跑完。

实测数据:

  • 预填充速度:37800 tokens/s
  • 解码速度:413 tokens/s
  • 能效:1.87 tok/J,对比 llama.cpp BF16,能效提升超 2 倍

2️⃣ DFlash:24GB 显存跑 27B 大模型

这是最惊艳的部分。单张 RTX 3090,24GB 显存,直接跑 Qwen3.5-27B,还能支持 128K 上下文!

核心技术:

  • DFlash speculative 解码
  • DDTree 树状验证
  • GGUF 量化适配

实测速度:

  • 峰值速度:207.6 tok/s(AR 模式 38.0 tok/s,5.46x 加速)
  • HumanEval:129.5 tokens/s
  • 比普通自回归快 3.43 倍
  • 比 SGLang AWQ 快 2.8 倍

三、为什么要做这件事?

过去通用框架什么都能跑,但什么都跑不快,大量显卡性能被白白浪费。Lucebox 用 AI 辅助开发,把手写优化成本大幅降低。

目标很简单:本地 AI 不再是高端玩家特权,普通显卡也能私密、免费、流畅跑大模型。

四、谁能用?怎么跑?

环境要求

  • NVIDIA GPU:sm_86+(3090/4090/A10/A40),24GB+ 显存
  • CUDA 12+、CMake 3.18+、Python 3
  • 磁盘:约 80GB

快速开始

bash
# 1. 克隆代码
git clone --recurse-submodules https://github.com/Luce-Org/lucebox-hub
cd lucebox-hub/dflash

# 2. 编译
cmake -B build -S . -DCMAKE_CUDA_ARCHITECTURES=86 -DCMAKE_BUILD_TYPE=Release
cmake --build build --target test_dflash -j

# 3. 下载模型
# 目标模型 Qwen3.5-27B Q4_K_M (~16GB)
huggingface-cli download unsloth/Qwen3.5-27B-GGUF Qwen3.5-27B-Q4_K_M.gguf --local-dir models/

# DFlash 草稿模型 (~3.46GB)
huggingface-cli download z-lab/Qwen3.5-27B-DFlash model.safetensors --local-dir models/draft/

# 4. 快速生成
python3 scripts/run.py --prompt "def fibonacci(n):"

# 5. 多轮聊天
python3 examples/chat.py

# 6. 启动 OpenAI 兼容服务
python3 -m venv .venv
.venv/bin/pip install fastapi uvicorn transformers jinja2
.venv/bin/python scripts/server.py --port 8000 --daemon

128K 长上下文模式

bash
DFLASH27B_KV_Q4=1 DFLASH27B_PREFILL_UBATCH=16 \
build/test_dflash models/Qwen3.5-27B-Q4_K_M.gguf \
models/draft/model.safetensors /tmp/long_prompt.bin 64 /tmp/out.bin \
--fast-rollback --ddtree --ddtree-budget=16 --max-ctx=131072

五、未来规划

时间计划
Q1 2026RTX 3090 深度优化
Q2 2026Ryzen AI MAX+ 优化
Q2 2026CPU+GPU 异构加速
Q3 2026Lucebox 正式版发布

写在最后

Lucebox 不只是优化工具,它重新定义本地大模型的可能性。让老显卡重生,让本地 AI 普惠更多人。对本地部署、大模型推理感兴趣的朋友,一定要去试试。

版权声明:本文内容整理自微信公众号「飞翔的 SA」,仅做排版整理,主体内容未做篡改。