9,806
// 项目简介
Fire-Flyer File System (3FS) 是一款高性能分布式存储解决方案,专为满足 AI 训练和推理工作负载的严苛要求而设计。它利用具有 RDMA 和 SSD 的解耦架构,为分布式应用程序提供强一致性和熟悉的各种文件接口。该系统支持多种用例,包括大规模数据准备、高效数据集加载以及高吞吐量检查点保存。
// 技术分析
Fire-Flyer File System (3FS) 是一款高性能分布式存储解决方案,专为满足大规模 AI 训练和推理工作负载对 I/O 的严苛要求而设计。通过采用将存储与计算解耦的架构,它利用现代 SSD 和 RDMA 网络提供了一个与位置无关、高吞吐量的共享存储层。该系统通过在事务性键值存储支持下实现标准文件接口,在确保开发人员生产力的同时,利用 Chain Replication with Apportioned Queries (CRAQ) 确保了数据完整性。
// 核心亮点
01
利用解耦架构聚合数百个节点上数千个 SSD 的吞吐量,实现大规模并行性能。
02
实现 Chain Replication with Apportioned Queries (CRAQ) 以提供强一致性,从而简化应用程序逻辑和推理。
03
提供由事务性键值存储支持的标准文件接口,使开发人员能够使用熟悉的 API,而无需学习新的存储协议。
04
通过支持跨计算节点对训练样本进行随机访问,实现高效的数据加载,消除了手动预取或洗牌的需要。
05
支持高吞吐量并行检查点,这对于维持大规模 AI 模型训练的稳定性和进度至关重要。
06
为 LLM 推理提供了一种经济高效、大容量的 DRAM-based KVCache 替代方案,显著提高了吞吐量和容量。
// 典型使用场景
01
用于大规模 AI 训练的高吞吐量并行检查点保存
02
用于分析流水线的高效数据准备与管理
03
用于 LLM 推理优化的经济高效 KVCache 存储
// 快速开始
要开始使用 3FS,请克隆存储库并使用提供的脚本初始化子模块。为您的 Linux 发行版(Ubuntu、openEuler 或 OpenCloudOS)安装必要的系统依赖项,确保配置好 FoundationDB 和 Rust,并使用 CMake 构建项目。最后,参考 deploy 目录中的文档来设置并运行测试集群。