ホームDeep Learninggoogle/magika
// archived 2026-04-18
google

magika

AI#Deep Learning#File Identification#Security#Rust#Python
GitHub で見る →
108

// 概要

Magika は deep learning を活用し、200 種類以上のファイル形式を極めて高精度に識別する AI ツールです。最適化されたモデルにより、約 99% の精度を維持しながらミリ秒単位での推論結果を提供します。本プロジェクトは、多様な開発ワークフローを支援するため、汎用的な command-line interface と Python、JavaScript、Rust 向けの language bindings を提供しています。

// 技術解説

Magika は、カスタムの高度に最適化された deep learning モデルを活用して高精度なファイル分類を提供する、AI を活用したファイルタイプ識別ツールです。1 億件のサンプルと 200 種類以上のコンテンツタイプからなる大規模なデータセットで学習することで、セキュリティやコンテンツポリシーのルーティングにおける正確なファイル検出という課題を大規模に解決します。このプロジェクトはパフォーマンスを優先しており、ファイルコンテンツの限定的なサブセットのみを分析することで単一の CPU 上でサブミリ秒の推論時間を実現し、Gmail や Google Drive のような高スループットな環境に適しています。

// 主要ハイライト

01
200 種類以上のファイルタイプで平均約 99% の適合率と再現率を達成し、従来の検出手法を大幅に上回ります。
02
限定的なコンテンツサブセットを利用することで、ファイルサイズに関係なく 1 ファイルあたり約 5ms というほぼ一定の推論速度を実現します。
03
high-confidence、medium-confidence、best-guess を含む柔軟な予測モードを提供し、ユーザーがエラー許容範囲を管理できるようにします。
04
コンテンツタイプごとのしきい値システムを実装し、モデルの予測を信頼するか、汎用的なラベルを返すかをインテリジェントに判断します。
05
Rust ベースの CLI、Python API、および実験的な JavaScript/TypeScript バインディングを通じて多言語サポートを提供し、多様な統合ニーズに対応します。
06
再帰的なディレクトリのスキャンとバッチ処理をサポートし、数千ものファイルを同時に効率よく分析できます。

// ユースケース

01
セキュリティや content policy scanning における高速かつ正確なファイル形式の識別
02
command-line interface を介した再帰的なディレクトリ走査とバッチファイル分析
03
Python、JavaScript、または Rust の language bindings を利用したアプリケーションへの統合

// クイックスタート

開発者は pipx、Homebrew、または提供されているインストーラースクリプトを使用してコマンドラインツールをインストールするか、Python の場合は 'pip install magika'、JavaScript の場合は 'npm install magika' を使用してライブラリを直接統合できます。インストール後、ユーザーはファイルパスを 'magika' コマンドに渡すか、コード内で Magika クラスをインポートしてバイト、ストリーム、またはパスを処理することでファイルタイプを識別できます。