Michael-A-Kuykendall

shimmy

// 项目简介

Shimmy 是一个轻量级的单二进制文件服务器，为在本地运行 GGUF 模型提供了 100% 兼容 OpenAI 的 API。它具备零配置模型发现、自动 GPU 后端检测以及针对大模型的高级 CPU/GPU 混合处理功能。该工具专为隐私和性能而设计，允许开发者无需更改代码即可将本地 LLM 集成到现有工具中。

// 技术分析

Shimmy 是一个用 Rust 编写的高性能、轻量级 OpenAI API 服务器，支持在本地运行 GGUF 模型且零依赖。通过提供 OpenAI 端点的直接替代方案，它允许开发者在不修改代码的情况下将本地 LLM 集成到 VSCode 和 Cursor 等现有工具中。该项目优先考虑效率和易用性，采用单二进制架构，可自动检测 GPU 后端并管理模型发现，从而最大限度地减少配置开销。

// 核心亮点

提供 100% 兼容 OpenAI 的端点，支持与现有的 AI SDK 和开发工具无缝集成。

采用单二进制分发，包含所有必要的 GPU 后端，消除了复杂的编译和依赖管理。

实现智能 MOE (Mixture of Experts) CPU 卸载，支持在 VRAM 有限的消费级硬件上运行大型 70B+ 模型。

自动从 Hugging Face、Ollama 和本地目录发现模型，无需任何手动配置即可开始使用。

提供高性能表现，启动时间不到一秒且内存占用极小，显著优于传统的本地推理工具。

包含响应缓存和实时可观测性等高级功能，以优化开发工作流程和推理可靠性。

// 典型使用场景

在本地开发环境中作为 OpenAI API 的直接替代品

通过 MOE CPU 卸载在消费级硬件上运行 70B+ 大模型

为 VSCode、Cursor 和 Continue.dev 提供私密且经济高效的本地推理

// 快速开始

首先，从 GitHub releases 页面下载适用于您操作系统的预构建二进制文件，并在必要时使其可执行。使用 './shimmy serve' 命令运行服务器，它会自动检测您的 GPU 和可用模型。运行后，将您的 OpenAI 兼容客户端或 IDE 扩展指向 'http://127.0.0.1:11435/v1'，即可开始与您的本地模型进行交互。