使用 MLX 探索分布式推理和训练

使用 MLX 将机器学习工作负载扩展到多台 Mac。了解如何解决互连效率、大模型推理、请求批处理和分布式训练方面的难题。探索如何只用几台 Mac 来替代昂贵的云基础设施，从而满足 AI 工作负载的高要求。

章节

0:00 - Introduction
2:09 - Distributed communication
4:32 - Setting up your cluster
10:33 - Distributed inference and fine-tuning
13:35 - Model parallelism strategies
15:53 - Distributed fine-tuning
18:34 - CLI, Python, Swift, and C++ APIs
20:45 - Next steps

资源

相关视频

WWDC26

WWDC25

你好我是Tatiana MLX团队的研究科学家本地LLM正处于一个令人瞩目的时代模型规模不断增大并获得了惊人的新能力变得更加智能能够解决更难的问题随着性能提升我们使用它们处理更多任务：更长上下文、更难的任务以及更复杂的工作流最终单台机器的内存、算力或带宽将成为瓶颈在我们的WWDC 26视频 "Run local agentic AI on the Mac using MLX"中展示了如何在本地运行AI智能体但当你拥有多台设备时可以将本地AI发挥到极致运行更大的LLM或通过分布式推理和训练加速它们通过分布式推理和训练来加速今天我们将深入探讨如何用MLX跨多台Mac进行扩展充分利用你桌上的硬件我们将从命令行界面开始让模型在你的机器上运行在你的机器上运行然后转向Python API 进行实验最后用Swift将这些工作流直接嵌入你的App 开始吧！首先我们来了解完整的硬件和软件技术栈以实现Apple Silicon上的分布式工作负载然后我们将所有内容整合起来把四台M3 Ultra组成一个集群我们将逐步演示：选择合适的拓扑来连接机器启用快速通信并启动分布式任务集群准备好后我们就进入令人兴奋的环节快速本地分布式LLM 推理和微调我们将用MLX运行并与单台Mac进行对比并了解MLX如何在集群中分发模型大多数示例使用命令行界面最后我们将展示分布式通信如何通过Python、Swift 和C++ API向你开放让我们先来了解Apple Silicon 的分布式通信要实现快速数据收发机器需要通过物理链路连接即互连在此之上我们还需要一个传输协议一种将字节推送的机制从一台机器的内存传输到另一台从macOS 26.2开始远程直接内存访问协议即RDMA 支持通过Thunderbolt 5使用 RDMA将数据直接从一台机器的内存传输到另一台避免了大部分CPU 和操作系统的开销基于Thunderbolt的RDMA 为我们提供了高带宽低延迟通信正是分布式工作负载所需的但仅靠它只能实现两台机器之间的原始数据传输因此分布式程序需要更高层次的抽象一个通信后端提供用于发送数据的通信原语在各台机器之间传输或在整个集群中进行协调这两种操作是分布式训练和推理的基础模块这就是JACCL发挥作用的地方

JACCL是一个开源的集合通信库由Apple构建它利用基于Thunderbolt的RDMA 为你提供集合通信原语用于在机器之间发送数据并在集群中合并结果无需自行管理任何底层传输它不仅限于机器学习 Apple Silicon上的任何分布式工作负载都可以基于它构建技术栈的最后一块是机器学习框架使用通信后端进行分布式推理和训练这就是MLX MLX是一个开源机器学习库由Apple为Apple Silicon构建它利用JACCL实现低延迟分布式通信并提供工具用于跨集群编排分布式任务如果你是MLX新手请查看我们的视频 "Getting Started with MLX on Apple Silicon" 来自WWDC25

现在我们了解了完整的技术栈让我们将所有内容整合起来构建一个集群一组共同协作完成同一任务的机器我们将使用4台M3 Ultra 要搭建集群需要用 Thunderbolt 5线缆连接机器有多种连接方式拓扑结构直接影响通信时间首先我们来了解决定通信时间的因素接下来我们了解如何实际连接这些机器 JACCL支持哪些拓扑以及它们之间的权衡之后我们将展示如何在机器上启用RDMA以实现快速通信最后我们将用MLX在集群上启动分布式任务

通信时间由两个部分组成延迟和传输时间延迟是每次通信操作需要支付的固定成本与发送的数据量无关

传输时间是通过链路移动数据的成本随消息大小增长并取决于链路的带宽

对于小消息数据移动成本很小因此延迟占主导

对于大消息权衡正好相反根据通信是受延迟限制还是受带宽限制我们可能会偏好不同的拓扑

JACCL支持其中两种网格和环形在全网格中每台机器与其他所有机器直接连接因此任何集群通信具有最低的可能延迟在环形拓扑中每个节点只与其两个邻居连接非相邻节点之间的通信必须经过中间机器这会增加延迟但环形拓扑每台机器所需的线缆和端口更少更易于扩展到更多节点由于每个节点只有两个连接可以使用额外的Thunderbolt端口每个邻居使用两到三根线缆（取决于Mac型号）从而增加每条链路的带宽并减少传输时间当机器连接成网格后我们可以灵活地为每次通信选择路由通过网格拓扑或环形拓扑

JACCL的优点在于它会自动选择最佳拓扑根据消息大小和通信操作延迟敏感时选择网格带宽敏感时选择环形为获得这种灵活性让我们将所有M3 Ultra连接成网格

当我们将所有M3 Ultra连接好后需要在所有机器上启用RDMA 打开机器上的设置搜索"RDMA"

点击"Enable RDMA over Thunderbolt"

启用RDMA 然后重启

太好了！ Mac已通过 Thunderbolt 5线缆连接并且RDMA已启用现在我们需要一种启动分布式程序的方法

一种方式是通过局域网例如通过Wi-Fi或以太网从任何可以SSH访问集群的机器上比如我的MacBook 我们连接到每台Mac 启动程序从那时起所有机器通过 Thunderbolt链路直接通信 MLX提供了一个启动助手可以为你完成所有这些操作！

你在MacBook上运行mlx.launch 它负责编排集群你提供想要运行的可执行文件以及描述集群的 JSON主机文件它通过SSH连接到每个节点使用提供的主机文件中的主机名并在每台机器上启动可执行文件让我们看看描述集群的主机文件应该是什么样子它是一个JSON数组每个节点一条记录 "ssh"是mlx.launch 用于连接机器的主机名 "ips"是机器在局域网上的IP地址由JACCL用于节点间的初始协调 "rdma"是RDMA 设备名称的列表对应每个Thunderbolt对等连接

你可以手动编写但MLX也提供了一个助手脚本`mlx.distributed_config` 可以自动生成你提供主机名列表和输出路径你还可以在配置中嵌入环境变量它们将在启动时自动设置在每个节点上这里我们设置MLX_METAL_FAST_SYNCH=1 这能启用更快的 GPU到CPU同步这对分布式任务至关重要因为计算在GPU上运行在GPU上运行而通信在CPU上运行你还可以传递--auto-setup标志自动配置 Thunderbolt网络 Communication的--backend参数定义是网格还是环形对于网格 --backend设置为 jaccl 如本例所示对于环形我们将其改为jaccl-ring 让我们运行此命令为集群生成主机文件

首先它检查所有主机是否可以通过SSH访问然后探测每台机器的Thunderbolt端口以发现哪些机器与哪些机器物理连接从而构建拓扑图由于我们传递了--auto-setup 它会在所有机器上禁用Thunderbolt Bridge 在所有机器上并为每条Thunderbolt 链路配置RDMA 最后它写入一个JSON主机文件包含mlx.launch所需的一切注意不带--auto-setup标志时脚本会打印配置命令方便你审查后自行运行

现在集群已准备就绪让我们进入令人兴奋的部分分布式语言模型推理和微调最简单的入门方式是通过命令行界面和MLX LM MLX LM是一个开源Python包基于MLX构建提供命令行工具以及用于在本地运行语言模型的Python API 在Apple Silicon上运行请查看我们的视频 "Explore large language models on Apple Silicon with MLX" 来自WWDC25 以在单台设备上入门

正如我们去年展示的在单台Mac上与模型对话可以通过命令行界面使用mlx_lm.chat实现我们在终端中运行它指定要使用的模型例如Qwen 3.6 以及响应的最大Token数在后台 MLX LM会在单台机器上加载并运行模型

要通过命令行界面在集群上与同一模型对话我们用mlx.launch包装命令在MacBook上我们在终端中运行mlx.launch 使用--hostfile指向我们的集群配置在双横线后我们传递完全相同的mlx_lm.chat命令但使用每个节点上可执行文件的远程路径命令几乎完全相同 MLX LM会对模型分片并为你协调分布式推理请记住所有必要的库如MLX必须安装在每台Mac上可执行文件必须在所有机器上都可访问通过命令行界面一行命令我们就让模型运行起来了分布在整个集群上！让我们并排比较一下用Qwen 3.6对话一个拥有270亿参数的模型在单台M3 Ultra和4台上分别运行我已在两侧启动了 mlx_lm.chat 左侧模型加载在单台M3 Ultra上右侧它分片在四台机器上让我们用"Implement a transformer model in MLX." 同时提示两边

速度提升相当惊人！集群生成Token的速度接近单台机器的三倍相比单台机器对于Qwen 3.6模型正如我们所见在多台Mac上运行模型可以显著提升推理速度具体加速效果取决于模型大小和架构但时间改善并非使用分布式的唯一原因有时模型对于单台机器来说太大了例如Kimi 2.6拥有 1万亿个总参数即使进行8-bit量化仅权重本身就需要约1TB的内存这无法放入单台M3 Ultra 但可以分布在四台上那么我们如何实际将权重和计算拆分到各机器上？

MLX和MLX LM支持两种方式流水线并行和张量并行

流水线并行按深度拆分模型在这种情况下每台机器持有一组层数据按顺序流经各台机器它不会加速推理因为每个Token仍需依次通过各组层一个接一个但优点是通信简单机器只在层组边界处交换激活值在层组的边界处张量并行按宽度拆分模型在这种情况下每台机器持有每层的一部分因此所有机器同时处理同一Token 由于每层计算并行化推理速度得以提升但代价是通信频率大幅增加在每层和每个Token时都会发生通信这使得低延迟变得重要这就是为什么网格拓扑对这种情况至关重要每台机器都能通过单跳访问其他任何机器

张量并行是MLX LM中的默认分片策略要用流水线并行对模型进行分片只需在命令中附加--pipeline标志注意并非所有模型都支持流水线并行现在让我们在集群上与万亿参数的Kimi 2.6对话在我们的集群上

为此我们像之前一样从MacBook使用mlx.launch 指向主机文件我没有传递--pipeline标志所以我们使用张量并行我们需要等待片刻 mlx.launch正在连接每台机器 MLX LM加载并分片模型然后启动对话

太好了模型已加载！让我们向模型提问 "Implement machine learning architecture for GPT in Python with MLX"

就这样仅凭一条命令一个庞大的万亿参数模型正在你的Mac上本地运行回答你的问题

使用MLX和MLX LM 不仅可以运行语言模型推理还可以在你的硬件上对模型进行微调快速、高效、完全私密数据从不离开你的机器让我们从单台Mac开始然后扩展到集群在单台机器上进行微调或训练时我们将训练数据分成批次即多个样本的集合对于每个批次 Mac计算梯度并更新模型权重我们对训练数据集重复此过程一次或多次直到模型达到期望的质量处理训练数据的速度越快微调完成得越早那么如何使用多台机器来加速这一过程？思路很简单在每台Mac上复制模型每台机器接收不同的数据批次并在本地计算梯度然后我们对梯度取平均使模型更新使用来自所有批次的信息这称为数据并行训练因为模型被复制而数据在各机器上并行处理这就是加速的来源因此 N台机器可以将数据处理速度提升至多N倍听起来很棒！让我们看看如何在 MLX LM中使用数据并行和之前一样与单设备的唯一区别是用mlx.launch启动任务从你的MacBook 指定远程机器上 mlx_lm.lora的路径数据分片由MLX LM处理命令几乎相同我们将--batch-size 乘以设备数量这样每台机器仍然处理与之前每步相同数量的样本让我们对拥有90亿参数的 Qwen 3.5进行微调在单台机器和集群上分别运行并比较模型每秒处理的Token数量我们在左侧的单台设备上启动微调右侧在集群上启动使用mlx.launch和主机文件指定远程机器上 mlx_lm.lora的路径首先加载数据和模型然后训练开始单台M3 Ultra每秒处理约180个Token 而在集群上每秒处理约600个Token 微调速度提升超过3倍现在使用MLX 你可以将设备变成本地训练集群进行高效微调无需迁移到云端到目前为止我们使用命令行界面进行分布式推理和MLX LM内的微调然而 MLX提供了细粒度的控制用于分片和分布式操作通过灵活的Python、Swift和C++ API 这允许你在Python和C++中对模型进行实验或用Swift将模型嵌入你的App 让我们看看示例要使用Python API 和MLX LM运行分布式推理首先初始化用于通信的分布式组然后定义我们想要的并行类型例如张量并行最后使用sharded_load函数对模型进行分片之后我们像在单台设备上一样使用该模型 MLX LM在底层处理所有分布式通信

要对模型及其分片有更多控制可以使用MLX本身的底层原语例如定义一个简单的 Linear层后可以使用shard_linear函数对其进行张量并行分片你甚至可以控制基本的分布式操作如all reduce 在Python、Swift或C++中通过JACCL初始化分布式组后我们对张量在所有Mac上执行集合分布式求和使用对应的MLX原语正如我们在会话开始时所指出的 JACCL本身也是独立可用的你可以将其用于任何应用需要分布式通信的应用甚至是非机器学习应用 JACCL可以不依赖MLX独立构建它提供C++ API 包含通信原语初始化JACCL组后我们再次对所有Mac的张量执行集合分布式求和但这次直接通过JACCL 而非MLX 现在你已了解高层和低层API 用于使用MLX和JACCL 进行分布式推理和训练你已准备好用MLX 构建高级分布式工作流

在本次会话中我们了解了完整的技术栈使分布式训练和推理成为可能在Apple Silicon上从基于Thunderbolt的RDMA 一直到MLX和MLX LM 我们展示了从单台设备扩展到多台设备是多么简单以及它带来的好处更快的推理运行万亿参数模型的能力以及更快的微调只需对单设备代码做极少改动支持命令行界面 Python、Swift和C++ API 有了分布式集群现在你可以运行完全由MLX驱动的本地AI智能体快速、私密运行在你自己的硬件上了解更多请查看我们的WWDC 2026视频 "Run local agentic AI on the Mac using MLX" 要深入了解高级分布式功能包括自定义并行策略和训练循环请查看我们的文档你还可以使用MLX LM 通过内置服务器分布式提供模型服务我们迫不及待地想看到你用 MLX在Apple Silicon上构建的作品！

8:31 - Hostfile format for a 4-node MLX cluster

[
  {
    "ssh": "m3-ultra-0",
    "ips": ["192.168.1.10"],
    "rdma": [null, "rdma_en5", "rdma_en4", "rdma_en3"]
  },
  {
    "ssh": "m3-ultra-1",
    "ips": ["192.168.1.11"],
    "rdma": ["rdma_en5", null, "rdma_en4", "rdma_en3"]
  },
  {
    "ssh": "m3-ultra-2",
    "ips": ["192.168.1.12"],
    "rdma": ["rdma_en5", "rdma_en4", null, "rdma_en3"]
  },
  {
    "ssh": "m3-ultra-3",
    "ips": ["192.168.1.13"],
    "rdma": ["rdma_en5", "rdma_en4", "rdma_en3", null]
  }
]

8:56 - Generate the cluster hostfile with mlx.distributed_config

mlx.distributed_config \
    --hosts m3-ultra-0,m3-ultra-1,m3-ultra-2,m3-ultra-3 \
    --output "m3-ultra-jaccl.json" \
    --env MLX_METAL_FAST_SYNCH=1 \
    --auto-setup \
    --backend jaccl

11:04 - Run distributed LLM inference with mlx_lm.chat

# Single-device LLM inference
mlx_lm.chat --model "Qwen/Qwen3.6-27B" --max-tokens 2048

# Distributed LLM inference across the cluster
mlx.launch --hostfile "m3-ultra-jaccl.json" -- \
    /remote/path/to/mlx_lm.chat --model "Qwen/Qwen3.6-27B" --max-tokens 2048

15:03 - Run distributed inference with pipeline parallelism

# Tensor parallelism (default)
mlx.launch --hostfile "m3-ultra-jaccl.json" -- \
    /remote/path/to/mlx_lm.chat --model "moonshotai/Kimi-K2.6" \
                                 --max-tokens 2048

# Pipeline parallelism — append --pipeline flag
mlx.launch --hostfile "m3-ultra-jaccl.json" -- \
    /remote/path/to/mlx_lm.chat --model "moonshotai/Kimi-K2.6" \
                                 --max-tokens 2048 \
                                 --pipeline

17:18 - Run distributed fine-tuning with mlx_lm.lora

# Single-device fine-tuning
mlx_lm.lora --model "Qwen/Qwen3.5-9B" \
             --data "mlx-community/wikisql" \
             --train --batch-size 4

# Distributed fine-tuning (scale --batch-size by number of devices)
mlx.launch --hostfile "hostfile.json" -- \
    /remote/path/to/mlx_lm.lora --model "Qwen/Qwen3.5-9B" \
                                  --data "mlx-community/wikisql" \
                                  --train --batch-size 16

19:01 - Distributed inference with the MLX LM Python API

import mlx.core as mx
from mlx_lm import stream_generate
from mlx_lm.utils import sharded_load

# Initialise distributed backend
group = mx.distributed.init(strict=True, backend="jaccl")
# Define parallelism
tensor_group, pipeline_group = group, None

# Shard the model
model, tokenizer = sharded_load("moonshotai/Kimi-K2.6", pipeline_group, tensor_group)
for response in stream_generate(model, tokenizer, prompt, max_tokens=1024):
    if group.rank() == 0:
        print(response.text, end="", flush=True)

19:31 - Shard a layer with the MLX Python API

import mlx.core as mx
import mlx.nn as nn

# Initialise distributed backend
group = mx.distributed.init(strict=True, backend="jaccl")

# Define layer and shard it column-wise
layer = nn.Linear(1024, 1024)
sharded_layer = nn.layers.distributed.shard_linear(
    layer, strategy="all-to-sharded", group=group
)
data = mx.random.normal((1, 1, 1024))
output = sharded_layer(data)
mx.eval(output)

19:47 - All-reduce across devices in Python, Swift, and C++

# Python
import mlx.core as mx
world = mx.distributed.init(strict=True, backend="jaccl")
data = mx.full((4,), float(world.rank()), dtype=mx.float32)
result = mx.distributed.all_sum(data, group=world)
mx.eval(result)

# Swift
let group = try DistributedGroup(strict: .ring)
let data = rank == 0
    ? MLXArray(converting: [1.0, 2.0, 3.0])
    : MLXArray(converting: [5.0, 6.0, 7.0])
let result = try group.allSum(data)

// C++
namespace mx = mlx::core;
auto world = mx::distributed::init(/* strict */ true, "jaccl");
mx::array data = mx::full({4}, static_cast<float>(world.rank()), mx::float32);
mx::array result = mx::distributed::all_sum(data, world);
mx::eval(result);

20:06 - Standalone distributed sum with the JACCL C++ API

#include <jaccl/jaccl.h>
#include <iostream>

int main() {
    // Initialize JACCL group
    auto group = jaccl::init();
    std::cout << "Rank " << group->rank() << " of " << group->size() << std::endl;
    // Perform all-reduce sum
    float data[10] = {1.0f, 2.0f, 3.0f, 4.0f, 5.0f, 6.0f, 7.0f, 8.0f, 9.0f, 10.0f};
    float output[10];
    group->all_sum(data, output, sizeof(data), jaccl::Float32);
    std::cout << "Result: " << output[0] << std::endl;
    return 0;
}

0:00 - Introduction
Overview of why distributed AI becomes necessary as models grow larger, and a preview of what the session covers: CLI tools, Python API, and Swift for embedding distributed workflows in your apps.
2:09 - Distributed communication
A walkthrough of the full hardware and software stack enabling distributed workloads on Apple silicon: RDMA over Thunderbolt 5 for low-latency data movement, JACCL (open-source collective communication library), and MLX as the ML framework that ties them together.
4:32 - Setting up your cluster
How to physically connect four M3 Ultras into a cluster — understanding latency vs. bandwidth trade-offs, choosing between mesh and ring topologies, enabling RDMA in System Settings, and using mlx.distributed_config and mlx.launch to configure and orchestrate the cluster.
10:33 - Distributed inference and fine-tuning
How to run distributed LLM inference with MLX LM using a single CLI command — wrapping mlx_lm.chat with mlx.launch to shard a 27B-parameter Qwen model across four M3 Ultras, achieving nearly 3x the token generation rate of a single machine.
13:35 - Model parallelism strategies
How MLX LM splits large models across machines using tensor parallelism (splitting by width for faster inference) and pipeline parallelism (splitting by depth for simpler communication) — including a demo running the 1-trillion-parameter Kimi 2.6 model across four Macs.
15:53 - Distributed fine-tuning
How data-parallel training accelerates fine-tuning by replicating the model across machines, processing different data batches in parallel, and averaging gradients — demonstrated fine-tuning Qwen 3.5 (9B) at over 3x throughput on the cluster versus a single M3 Ultra.
18:34 - CLI, Python, Swift, and C++ APIs
How to use MLX's fine-grained Python, Swift, and C++ APIs for distributed inference — initializing a distributed group, sharding models with tensor parallelism, using low-level all_reduce primitives, and leveraging JACCL standalone for non-ML distributed workloads.
20:45 - Next steps
Summary of the full distributed stack — from RDMA over Thunderbolt to MLX and MLX LM — and next steps including the companion session on local agentic AI, documentation on custom parallelism strategies, and the built-in MLX LM distributed server.

探索“入门汇总”

及时了解最新动态

探索“平台”

精选

探索“技术”

精选

探索“社区”

精选

探索“文档”

发布说明

探索“下载”

精选

探索“支持”

精选

快速链接

使用 MLX 探索分布式推理和训练

章节

资源

相关视频

WWDC26

WWDC25