// 概要
DeepGEMM は、最新の LLM に最適化された高性能な Tensor Core カーネルを提供する統合 CUDA ライブラリです。インストール時の CUDA コンパイルを不要にする軽量な Just-In-Time コンパイルモジュールを備えています。FP8、FP4、BF16 の GEMM や、fused MoE および MQA スコアリングなど、多様な行列演算において専門家が調整したパフォーマンスを実現します。
// 技術解説
DeepGEMM は、現代の LLM に不可欠な計算プリミティブを提供するために設計された、高性能で統合された CUDA カーネルライブラリです。これには FP8/FP4 GEMM、fused MoE、MQA スコアリングなどが含まれます。軽量な JIT コンパイルモジュールを活用することで、インストール時の複雑な CUDA コンパイルを不要にしつつ、専門家が調整したライブラリに匹敵するパフォーマンスを維持します。このプロジェクトは、複雑なテンプレートメタプログラミングへの過度な依存を避けることでシンプルさとアクセシビリティを優先しており、開発者が高度な NVIDIA GPU カーネル最適化を学習・実装するためのクリーンなコードベースを提供します。
// 主要ハイライト
// ユースケース
// クイックスタート
開始するには、すべてのサブモジュールが含まれるように 'git clone --recursive' を使用してリポジトリをクローンしてください。提供されている 'develop.sh' スクリプトを実行して必要なインクルードをリンクし、C++ JIT モジュールをビルドした後、'install.sh' を実行してインストールを完了させます。インストールが完了したら、'deep_gemm' モジュールを Python 環境に直接インポートして、最適化されたカーネルにアクセスできます。