Parallax 分布式推理引擎:闲置电脑也能跑千亿参数大模型!
发布时间: 2026-04-10
来源: 微信公众号「如此才是」(作者:小K)
原文链接: https://mp.weixin.qq.com/s/HzxmarjjP2ISjsbrfctq8Q
版权声明: 本文版权归原文作者所有,仅供学习参考
📌 引子:从"租云"到"主权AI"的转折点
最近逛 GitHub 发现了一个狠活:GradientHQ/parallax。
它不是又一个"玩具级"推理工具,而是一个真正能让你用家里的设备拼出一个 AI 集群的分布式推理引擎。
简单说:以前大模型动不动就要租云上 A100/H100,现在 Parallax 可以把你的 MacBook、台式机、闲置 GPU、甚至队友的机器串起来,像一台超级计算机一样跑 DeepSeek、Llama、Qwen 这些顶级模型。
感觉这东西直接把"主权 AI"从概念变成了现实。
💡 先说说痛点,大家都懂
现在大模型越做越大,单机显存根本不够,云端又贵、排队、数据还得送出去。想本地跑个 70B+ 的模型?要么买一堆显卡,要么眼巴巴看着别人玩。
Parallax 直接把这个问题干掉了:模型分片(pipeline-parallel sharding)+ P2P 调度,模型层自动切开,KV Cache 分页管理,请求动态路由,不管设备在同一个局域网还是跨公网,都能协同工作。
把异构硬件变成一个"可追踪的统一服务",笔记本、实验室 GPU、队友工作站……全都可以贡献算力,请求走最快的路径,不需要公网 IP,不需要硬件完全一样。
🚀 Parallax 到底能干啥?
1. 本地托管 LLM
支持 40+ 开源模型,从 0.6B 到万亿参数 MoE,覆盖:
| 模型系列 | 包含 |
|---|---|
| DeepSeek 系列 | 各版本 |
| MiniMax | 全系 |
| GLM | 全系 |
| Kimi | 全系 |
| Qwen | 全系列 |
| Llama 3 | 全家桶 |
还包括各种量化版本。
2. 跨平台全支持
| 平台 | 后端 |
|---|---|
| Windows + Linux | SGLang/vLLM |
| macOS (Apple Silicon) | MLX LM |
Mac 上也能连续批处理和 Paged KV Cache。异构设备随便混搭——笔记本 + 台式机 + 服务器。
3. 高性能调度
| 特性 | 说明 |
|---|---|
| 动态请求路由 | 自动选择最优路径 |
| 连续批处理 | 多请求并行不排队 |
| Pipeline 并行 | 自动模型分片 |
| KV Cache 分页 | 高效内存管理 |
官方基准数据: 双节点 RTX 5090 上跑 Qwen2.5-72B,端到端延迟比 Petals 低 3.1 倍,输出吞吐更高。
4. 实际应用场景
- Coding Copilot
- 私人 AI 助手
- 视觉/语音流水线
- 多智能体模拟
你想跑什么 AI 应用,都能自己搭集群,不用再看云厂商脸色。
🏗️ 为什么叫"主权 AI 操作系统"?
Gradient 把这玩意儿叫 "Sovereign AI OS"。听起来有点大,但确实贴切——
它不是单纯的推理框架,而是把分布式运行时、P2P 通信(基于 Lattica)、异构 Worker 全部打通,让普通人也能拥有"自己的 AI 基础设施"。
🎮 怎么玩?上手其实不难
项目已经开源在 GitHub:GradientHQ/parallax
README 里有详细的安装指南和 Quick Start,文档放在 Gradient 官网。
基本流程
- 按文档装好依赖(支持 Docker,很友好)
- 把几台机器加进同一个 Parallax 网络
- 指定要跑的模型,Parallax 自动做分片和调度
目前已支持 OpenClaw 集成。
作为早期开源项目(0.0.1 版本起步),还在快速迭代中。想深度参与的可以看 CONTRIBUTING.md,贡献代码或者算力都很欢迎。
🆚 Parallax vs Exo:开源分布式推理怎么选?
两者都是开源的分布式 LLM 推理项目,核心目标一样——把家里的笔记本、Mac、闲置 GPU 拼成一个 AI 集群。但实现路径和侧重点不同。
Parallax 相比 Exo 的优势
| 对比项 | Parallax | Exo |
|---|---|---|
| 平台支持 | ✅ Windows + Linux + macOS | ⚠️ 主力 Apple Silicon,Linux 仅 CPU,Windows 未上线 |
| 跨公网能力 | ✅ Global Host 模式,NAT 穿越 | ⚠️ 更适合局域网/Thunderbolt |
| LAN 延迟 | 比 Exo 快 1.97 倍 | 纯 Mac + Thunderbolt 极低 |
| 调度架构 | 网络感知动态规划,生产级 | Tensor parallelism,适合 Mac 集群 |
| 模型覆盖 | 40+ 模型,万亿参数 MoE | 靠 mlx-community 量化版 |
Parallax 更适合: 异构、跨网、混合硬件的"主权 AI"场景
Exo 更适合: 纯 Mac 集群的极致性能(Thunderbolt RDMA 延迟极低)
🔮 为什么这个项目值得关注?
因为它真正把 AI 的**"使用权"**还给了个人和团队。
- 隐私安全:数据完全本地
- 成本下降:闲置算力被唤醒
- 自主可控:不再被云端锁住,不再被硬件卡住
对开发者、研究者、甚至想自建 AI 产品的朋友来说,Parallax 打开了一扇新门。
📝 总结
| 维度 | 评价 |
|---|---|
| 创新性 | ⭐⭐⭐⭐⭐(主权 AI OS 概念) |
| 易用性 | ⭐⭐⭐⭐(Docker 支持,文档齐全) |
| 性能 | ⭐⭐⭐⭐⭐(官方基准领先) |
| 平台覆盖 | ⭐⭐⭐⭐⭐(三平台全支持) |
| 成熟度 | ⭐⭐(早期 0.0.1 版本) |
一句话: 不管选 Parallax 还是 Exo,方向都是对的——把 AI 的控制权从云端拿回到自己手里。
闲置显卡别再吃灰了,拼起来就是你的私人 AI 超算。
本文基于微信公众号「如此才是」文章整理,版权归原文作者所有。