google

magika

AI#Deep Learning#File Identification#Security#Rust #Python

108

// 项目简介

Magika 是一款利用深度学习提供高精度文件类型识别的 AI 工具，支持超过 200 种内容类型。它配备了高度优化的模型，能够在毫秒级时间内提供推理结果，同时保持约 99% 的准确率。该项目提供通用的命令行界面以及 Python、JavaScript 和 Rust 语言绑定，以支持多样化的开发者工作流程。

// 技术分析

Magika 是一款由 AI 驱动的文件类型识别工具，利用定制且高度优化的深度学习模型提供高精度的文件分类。通过在涵盖 200 多种内容类型的 1 亿个样本数据集上进行训练，它解决了大规模安全和内容策略路由中准确文件检测的难题。该项目优先考虑性能，通过仅分析文件内容的有限子集，在单核 CPU 上实现了亚毫秒级的推理时间，使其适用于 Gmail 和 Google Drive 等高吞吐量环境。

// 核心亮点

在 200 多种文件类型上实现了约 99% 的平均精确率和召回率，显著优于传统的检测方法。

通过利用有限的内容子集，无论文件总大小如何，都能提供约 5ms/文件的近乎恒定的推理速度。

提供包括高置信度、中置信度和最佳猜测在内的灵活预测模式，允许用户管理容错率。

实现了基于内容类型的阈值系统，智能决定是信任模型的预测还是返回通用标签。

通过基于 Rust 的 CLI、Python API 以及实验性的 JavaScript/TypeScript 绑定提供多语言支持，以满足多样化的集成需求。

支持递归目录扫描和批量处理，能够同时高效地分析数千个文件。

// 典型使用场景

用于安全和内容策略扫描的高速、准确的文件类型识别

通过命令行界面进行递归目录扫描和批量文件分析

通过 Python、JavaScript 或 Rust 语言绑定集成到应用程序中

// 快速开始

开发者可以通过 pipx、Homebrew 或提供的安装脚本安装命令行工具，或者直接使用 'pip install magika' (Python) 或 'npm install magika' (JavaScript) 集成该库。安装完成后，用户可以通过将文件路径传递给 'magika' 命令，或者在代码中导入 Magika 类来处理字节、流或路径，从而识别文件类型。