首页AIdeepseek-ai/3FS
// archived 2026-04-15
deepseek-ai

3FS

Infra#Distributed Systems#Storage#AI#NVMe#RDMA
前往 GitHub →
9,806

// 项目简介

Fire-Flyer File System (3FS) 是一款高性能分布式存储解决方案,专为满足 AI 训练和推理工作负载的严苛要求而设计。它利用具有 RDMA 和 SSD 的解耦架构,为分布式应用程序提供强一致性和熟悉的各种文件接口。该系统支持多种用例,包括大规模数据准备、高效数据集加载以及高吞吐量检查点保存。

// 技术分析

Fire-Flyer File System (3FS) 是一款高性能分布式存储解决方案,专为满足大规模 AI 训练和推理工作负载对 I/O 的严苛要求而设计。通过采用将存储与计算解耦的架构,它利用现代 SSD 和 RDMA 网络提供了一个与位置无关、高吞吐量的共享存储层。该系统通过在事务性键值存储支持下实现标准文件接口,在确保开发人员生产力的同时,利用 Chain Replication with Apportioned Queries (CRAQ) 确保了数据完整性。

// 核心亮点

01
利用解耦架构聚合数百个节点上数千个 SSD 的吞吐量,实现大规模并行性能。
02
实现 Chain Replication with Apportioned Queries (CRAQ) 以提供强一致性,从而简化应用程序逻辑和推理。
03
提供由事务性键值存储支持的标准文件接口,使开发人员能够使用熟悉的 API,而无需学习新的存储协议。
04
通过支持跨计算节点对训练样本进行随机访问,实现高效的数据加载,消除了手动预取或洗牌的需要。
05
支持高吞吐量并行检查点,这对于维持大规模 AI 模型训练的稳定性和进度至关重要。
06
为 LLM 推理提供了一种经济高效、大容量的 DRAM-based KVCache 替代方案,显著提高了吞吐量和容量。

// 典型使用场景

01
用于大规模 AI 训练的高吞吐量并行检查点保存
02
用于分析流水线的高效数据准备与管理
03
用于 LLM 推理优化的经济高效 KVCache 存储

// 快速开始

要开始使用 3FS,请克隆存储库并使用提供的脚本初始化子模块。为您的 Linux 发行版(Ubuntu、openEuler 或 OpenCloudOS)安装必要的系统依赖项,确保配置好 FoundationDB 和 Rust,并使用 CMake 构建项目。最后,参考 deploy 目录中的文档来设置并运行测试集群。