Skip to content

Parallax 分布式推理引擎:闲置电脑也能跑千亿参数大模型!

发布时间: 2026-04-10
来源: 微信公众号「如此才是」(作者:小K)
原文链接: https://mp.weixin.qq.com/s/HzxmarjjP2ISjsbrfctq8Q
版权声明: 本文版权归原文作者所有,仅供学习参考


📌 引子:从"租云"到"主权AI"的转折点

最近逛 GitHub 发现了一个狠活:GradientHQ/parallax

它不是又一个"玩具级"推理工具,而是一个真正能让你用家里的设备拼出一个 AI 集群的分布式推理引擎。

简单说:以前大模型动不动就要租云上 A100/H100,现在 Parallax 可以把你的 MacBook、台式机、闲置 GPU、甚至队友的机器串起来,像一台超级计算机一样跑 DeepSeek、Llama、Qwen 这些顶级模型。

感觉这东西直接把"主权 AI"从概念变成了现实。


💡 先说说痛点,大家都懂

现在大模型越做越大,单机显存根本不够,云端又贵、排队、数据还得送出去。想本地跑个 70B+ 的模型?要么买一堆显卡,要么眼巴巴看着别人玩。

Parallax 直接把这个问题干掉了:模型分片(pipeline-parallel sharding)+ P2P 调度,模型层自动切开,KV Cache 分页管理,请求动态路由,不管设备在同一个局域网还是跨公网,都能协同工作。

把异构硬件变成一个"可追踪的统一服务",笔记本、实验室 GPU、队友工作站……全都可以贡献算力,请求走最快的路径,不需要公网 IP,不需要硬件完全一样。


🚀 Parallax 到底能干啥?

1. 本地托管 LLM

支持 40+ 开源模型,从 0.6B 到万亿参数 MoE,覆盖:

模型系列包含
DeepSeek 系列各版本
MiniMax全系
GLM全系
Kimi全系
Qwen全系列
Llama 3全家桶

还包括各种量化版本。

2. 跨平台全支持

平台后端
Windows + LinuxSGLang/vLLM
macOS (Apple Silicon)MLX LM

Mac 上也能连续批处理和 Paged KV Cache。异构设备随便混搭——笔记本 + 台式机 + 服务器。

3. 高性能调度

特性说明
动态请求路由自动选择最优路径
连续批处理多请求并行不排队
Pipeline 并行自动模型分片
KV Cache 分页高效内存管理

官方基准数据: 双节点 RTX 5090 上跑 Qwen2.5-72B,端到端延迟比 Petals 低 3.1 倍,输出吞吐更高。

4. 实际应用场景

  • Coding Copilot
  • 私人 AI 助手
  • 视觉/语音流水线
  • 多智能体模拟

你想跑什么 AI 应用,都能自己搭集群,不用再看云厂商脸色。


🏗️ 为什么叫"主权 AI 操作系统"?

Gradient 把这玩意儿叫 "Sovereign AI OS"。听起来有点大,但确实贴切——

它不是单纯的推理框架,而是把分布式运行时、P2P 通信(基于 Lattica)、异构 Worker 全部打通,让普通人也能拥有"自己的 AI 基础设施"。


🎮 怎么玩?上手其实不难

项目已经开源在 GitHub:GradientHQ/parallax

README 里有详细的安装指南和 Quick Start,文档放在 Gradient 官网。

基本流程

  1. 按文档装好依赖(支持 Docker,很友好)
  2. 把几台机器加进同一个 Parallax 网络
  3. 指定要跑的模型,Parallax 自动做分片和调度

目前已支持 OpenClaw 集成。

作为早期开源项目(0.0.1 版本起步),还在快速迭代中。想深度参与的可以看 CONTRIBUTING.md,贡献代码或者算力都很欢迎。


🆚 Parallax vs Exo:开源分布式推理怎么选?

两者都是开源的分布式 LLM 推理项目,核心目标一样——把家里的笔记本、Mac、闲置 GPU 拼成一个 AI 集群。但实现路径和侧重点不同。

Parallax 相比 Exo 的优势

对比项ParallaxExo
平台支持✅ Windows + Linux + macOS⚠️ 主力 Apple Silicon,Linux 仅 CPU,Windows 未上线
跨公网能力✅ Global Host 模式,NAT 穿越⚠️ 更适合局域网/Thunderbolt
LAN 延迟比 Exo 快 1.97 倍纯 Mac + Thunderbolt 极低
调度架构网络感知动态规划,生产级Tensor parallelism,适合 Mac 集群
模型覆盖40+ 模型,万亿参数 MoE靠 mlx-community 量化版

Parallax 更适合: 异构、跨网、混合硬件的"主权 AI"场景

Exo 更适合: 纯 Mac 集群的极致性能(Thunderbolt RDMA 延迟极低)


🔮 为什么这个项目值得关注?

因为它真正把 AI 的**"使用权"**还给了个人和团队。

  • 隐私安全:数据完全本地
  • 成本下降:闲置算力被唤醒
  • 自主可控:不再被云端锁住,不再被硬件卡住

对开发者、研究者、甚至想自建 AI 产品的朋友来说,Parallax 打开了一扇新门。


📝 总结

维度评价
创新性⭐⭐⭐⭐⭐(主权 AI OS 概念)
易用性⭐⭐⭐⭐(Docker 支持,文档齐全)
性能⭐⭐⭐⭐⭐(官方基准领先)
平台覆盖⭐⭐⭐⭐⭐(三平台全支持)
成熟度⭐⭐(早期 0.0.1 版本)

一句话: 不管选 Parallax 还是 Exo,方向都是对的——把 AI 的控制权从云端拿回到自己手里。

闲置显卡别再吃灰了,拼起来就是你的私人 AI 超算。


本文基于微信公众号「如此才是」文章整理,版权归原文作者所有。

Released under the MIT License.