Michael-A-Kuykendall

shimmy

// 概要

Shimmy は、GGUF モデルをローカルで実行するための 100% OpenAI 互換 API を提供する軽量なシングルバイナリサーバーです。ゼロコンフィグレーションのモデル検出、GPU バックエンドの自動検知、大規模モデル向けの高度な CPU/GPU ハイブリッド処理機能を備えています。プライバシーとパフォーマンスを重視して設計されており、コードを変更することなく既存のツールにローカル LLM を統合できます。

// 技術解説

Shimmy は Rust で記述された高性能かつ軽量な OpenAI API サーバーであり、依存関係なしで GGUF モデルのローカル実行を可能にします。OpenAI エンドポイントのドロップイン代替機能を提供することで、開発者はコードを変更することなく、VSCode や Cursor などの既存ツールにローカル LLM を統合できます。このプロジェクトは効率性と使いやすさを優先しており、GPU バックエンドを自動検出し、モデルの検出を管理するシングルバイナリ構成を採用することで、設定のオーバーヘッドを最小限に抑えています。

// 主要ハイライト

100% OpenAI 互換のエンドポイントを提供し、既存の AI SDK や開発ツールとのシームレスな統合を実現します。

必要なすべての GPU バックエンドを含むシングルバイナリ配布を採用しており、複雑なコンパイルや依存関係の管理を不要にします。

インテリジェントな MOE (Mixture of Experts) CPU オフロードを実装し、VRAM が限られたコンシューマー向けハードウェアでも 70B+ の大規模モデルの実行を可能にします。

Hugging Face、Ollama、およびローカルディレクトリからモデルを自動的に検出するため、開始時に手動設定は一切不要です。

1 秒未満の起動時間と最小限のメモリフットプリントで高いパフォーマンスを発揮し、従来のローカル推論ツールを大幅に上回ります。

レスポンスキャッシュやリアルタイムの可観測性などの高度な機能を備えており、開発ワークフローと推論の信頼性を最適化します。

// ユースケース

ローカル開発環境における OpenAI API のドロップイン代替

MOE CPU オフロードによるコンシューマー向けハードウェアでの 70B+ 大規模モデルの実行

VSCode、Cursor、および Continue.dev 向けのプライベートでコスト効率の高いローカル推論

// クイックスタート

開始するには、GitHub の releases ページからお使いの OS 用のビルド済みバイナリをダウンロードし、必要に応じて実行権限を付与してください。'./shimmy serve' コマンドを使用してサーバーを実行すると、GPU と利用可能なモデルが自動的に検出されます。起動後、OpenAI 互換のクライアントまたは IDE 拡張機能の接続先を 'http://127.0.0.1:11435/v1' に設定することで、ローカルモデルとの対話を開始できます。