ホーム › トピック › Deep Learning

// トピック

Deep Learning

33直近 90 日のトレンド·33累計

// 今月の新着

// エコシステム

AI 33

// 最近の新着

すべての新着 →

#1vLLM Kunlun Hardware Plugin🆕 5 か月前↗ 12.53/d★ 405

// 今週の TOP 10

PaddlePaddle / Paddle

PaddlePaddle は、コアフレームワーク、モデルライブラリ、エンドツーエンドの開発ツールを提供する包括的な産業用 deep learning プラットフォームです。動的グラフと静的グラフの統合、自動並列化、科学計算のための高階微分といった高度な機能をサポートしています。このプラットフォームは、多様な産業分野における大規模なモデルのトレーニングと推論を促進するように設計されています。

deepseek-ai / DeepGEMM

DeepGEMM は、最新の LLM に最適化された高性能な Tensor Core カーネルを提供する統合 CUDA ライブラリです。インストール時の CUDA コンパイルを不要にする軽量な Just-In-Time コンパイルモジュールを備えています。FP8、FP4、BF16 の GEMM や、fused MoE および MQA スコアリングなど、多様な行列演算において専門家が調整したパフォーマンスを実現します。

PaddlePaddle / PaddleFormers

PaddleFormers は Baidu PaddlePaddle フレームワーク上に構築された Transformers ライブラリであり、Hugging Face と同等の Large Language Models および Vision-Language Models 向けの学習インターフェースと機能体験を提供します。Tensor parallelism、Pipeline parallelism、および Automatic mixed precision を統合することで、主要モデルにおいて Megatron-LM を凌駕する学習パフォーマンスを実現しました。さらに、国内のコンピューティングチップを完全にサポートし、Safetensors 形式と互換性があるため、開発者は Pre-training から Post-training までの全プロセスを効率的に完了できます。

ROLL は、大規模な GPU クラスター全体で LLM の強化学習ワークフローを拡張するために設計された、効率的で使いやすいライブラリです。RLVR、エージェントによる対話、蒸留など多様な学習パラダイムをサポートし、Megatron-Core、vLLM、SGLang といった高度なバックエンドを統合しています。複雑な推論や人間の好みへの調整タスクにおいて、パフォーマンスを向上させるための堅牢な可観測性と柔軟なリソース管理を提供します。

alibaba / rtp-llm

RTP-LLM は Alibaba Foundation Model Inference チームによって開発された高性能な LLM 推論アクセラレーションエンジンです。このエンジンは Taobao や Tmall といった Alibaba の多様なビジネスシナリオで広く活用されており、主要なモデルフォーマットやハードウェアバックエンドをサポートしています。高度なオペレーター最適化、量子化技術、分散推論機能を統合することで、大規模言語モデルに対して効率的なプロダクションレベルのサービスを提供します。

bilibili / Index-anisora

Index-AniSora は、高品質なアニメ動画生成とアニメーション制作のために設計された強力なオープンソースフレームワークです。このシステムは、包括的なデータ処理パイプライン、時空間マスキングを備えた制御可能な生成モデル、および専門的な評価ベンチマークを特徴としています。キャラクターの 3D 生成、動画のスタイル変換、正確なモーション制御のためのマルチモーダルガイダンスなど、多様なクリエイティブタスクをサポートします。

alibaba / TorchEasyRec

TorchEasyRec は、本番環境向けのディープラーニング推薦モデルを開発するために設計された PyTorch ベースのフレームワークです。候補生成、ランキング、マルチタスク学習、生成型推薦など、幅広いタスクをサポートしています。このフレームワークは、高いスケーラビリティ、柔軟なデータソース統合、そして実運用環境へのシームレスなデプロイオプションを提供します。

PaddlePaddle / PaddleCustomDevice

PaddleCustomDevice は PaddlePaddle フレームワークが提供するカスタムハードウェア統合ソリューションです。標準化されたインターフェース設計を通じて、開発者は様々なサードパーティ製ハードウェアバックエンドを PaddlePaddle エコシステムに統合できます。現在は Ascend、Cambricon、Intel GPU、Apple MPS を含む主要なハードウェアプラットフォームをサポートしています。

bytedance / jaqmc

JaQMC は、ニューラルネットワークを用いた量子モンテカルロシミュレーションを実行するために設計された、モジュール式の JAX ベースのフレームワークです。深層ニューラルネットワークを変分波動関数として利用し、従来の基底関数系に依存することなく電子の Schrödinger 方程式を解きます。本プロジェクトは、高度に構成可能で拡張性の高いアーキテクチャを通じて、分子、固体、分数量子ホール状態を含む多様な量子システムをサポートします。

baidu / vLLM-Kunlun

vLLM Kunlun は、Kunlun XPU ハードウェア上で vLLM をシームレスに実行可能にするコミュニティ主導のハードウェアプラグインです。ハードウェアプラグイン可能なインターフェースを活用して統合プロセスを分離し、幅広いオープンソースモデルとの互換性を確保しています。本プロジェクトは、Kunlun3 P800 プラットフォーム上で Transformer ベース、Mixture-of-Expert、マルチモーダル LLM を含む多様なアーキテクチャをサポートします。

// 累計の注目 (33)

PaddlePaddle / Paddle

PaddlePaddle は、フレームワークやモデルライブラリ、開発ツールなどの完全なエコシステムを提供する包括的な産業用ディープラーニングプラットフォームです。自動並列化や学習と推論の統合、科学計算のための高階微分といった高度な機能をサポートしています。多様なモデル開発に向けた柔軟かつ高性能なアーキテクチャを提供することで、さまざまな分野における AI の商用化を促進するように設計されています。

PaddlePaddle / PaddleOCR

PaddleOCR は、画像や PDF ドキュメントを Markdown や JSON といった LLM 向けの構造化データ形式に変換するために設計された包括的なツールキットです。最先端の vision-language models と 100 以上の言語をサポートする高性能な text recognition engines を備えています。主要な AI agent や RAG frameworks に広く統合されており、多様な hardware backends 全体で効率的な deployment が可能です。

ncnn はモバイルプラットフォーム向けに最適化された高性能なニューラルネットワーク推論フレームワークであり、モバイルデバイス上でのディープラーニングアルゴリズムのデプロイを簡素化します。サードパーティの依存関係がなくクロスプラットフォームに対応しており、モバイル CPU 上での実行速度は既存のオープンソースフレームワークを凌駕します。現在、ncnn は Tencent の様々な主要アプリケーションで広く利用されており、開発者がインテリジェントなアプリケーションを容易に構築できるよう支援しています。

ncnn は、モバイルプラットフォーム向けに深く最適化された高性能なニューラルネットワーク推論フレームワークです。サードパーティの依存関係がなく、クロスプラットフォーム対応を特徴としており、モバイル CPU 上で既存のオープンソースフレームワークを凌駕する性能を発揮します。開発者は ncnn を使用してディープラーニングモデルをモバイルデバイスへ容易に移植し、多様なインテリジェントアプリケーションを構築可能です。

PaddlePaddle / Paddle

PaddlePaddle は、コアフレームワーク、モデルライブラリ、エンドツーエンドの開発ツールを提供する包括的な産業用 deep learning プラットフォームです。動的グラフと静的グラフの統合、自動並列化、科学計算のための高階微分といった高度な機能をサポートしています。このプラットフォームは、多様な産業分野における大規模なモデルのトレーニングと推論を促進するように設計されています。

MNN は、モバイルや組み込みデバイスでの効率的なモデル推論と学習のために設計された、高性能かつ軽量なディープラーニングフレームワークです。幅広いニューラルネットワークアーキテクチャをサポートし、モデルの変換、圧縮、汎用計算のための多機能なツールを提供します。このフレームワークは、デバイスとクラウドが連携する機械学習を実現するために、Alibaba の様々なアプリケーションを含む本番環境で広く利用されています。

deepseek-ai / DeepEP

DeepEP は、高スループットかつ低レイテンシな GPU カーネルを通じて Mixture-of-Experts とエキスパート並列処理を最適化するために設計された専門的な通信ライブラリです。非対称ドメイン帯域幅転送や低精度サポートなどの高度な機能を備えており、トレーニングと推論の両方のパフォーマンスを向上させます。また、追加のストリーミングマルチプロセッサリソースを占有することなくハードウェア効率を最大化するため、通信と計算をオーバーラップさせるフックベースのメカニズムも含まれています。

deepseek-ai / DeepGEMM

DeepGEMM は、最新の LLM に最適化された高性能な Tensor Core カーネルを提供する統合 CUDA ライブラリです。インストール時の CUDA コンパイルを不要にする軽量な Just-In-Time コンパイルモジュールを備えています。FP8、FP4、BF16 の GEMM や、fused MoE および MQA スコアリングなど、多様な行列演算において専門家が調整したパフォーマンスを実現します。

PaddlePaddle / PaddleFormers

PaddleFormers は Baidu PaddlePaddle フレームワーク上に構築された Transformers ライブラリであり、Hugging Face と同等の Large Language Models および Vision-Language Models 向けの学習インターフェースと機能体験を提供します。Tensor parallelism、Pipeline parallelism、および Automatic mixed precision を統合することで、主要モデルにおいて Megatron-LM を凌駕する学習パフォーマンスを実現しました。さらに、国内のコンピューティングチップを完全にサポートし、Safetensors 形式と互換性があるため、開発者は Pre-training から Post-training までの全プロセスを効率的に完了できます。

ROLL は、大規模な GPU クラスター全体で LLM の強化学習ワークフローを拡張するために設計された、効率的で使いやすいライブラリです。RLVR、エージェントによる対話、蒸留など多様な学習パラダイムをサポートし、Megatron-Core、vLLM、SGLang といった高度なバックエンドを統合しています。複雑な推論や人間の好みへの調整タスクにおいて、パフォーマンスを向上させるための堅牢な可観測性と柔軟なリソース管理を提供します。

PaddlePaddle / PaddleX

PaddleX 3.0 は PaddlePaddle フレームワークを基盤としたローコード開発ツールであり、豊富な事前学習済みモデルを統合してフルプロセスの開発をサポートします。最小限の Python API とグラフィカルインターフェースを通じて、モデルのトレーニングから推論デプロイメントまでの迅速な実装を実現します。さらに、国内外の主要なハードウェアと幅広く互換性があり、開発者が効率的に産業用アプリケーションを構築できるよう支援します。

alibaba / rtp-llm

RTP-LLM は Alibaba Foundation Model Inference チームによって開発された高性能な LLM 推論アクセラレーションエンジンです。このエンジンは Taobao や Tmall といった Alibaba の多様なビジネスシナリオで広く活用されており、主要なモデルフォーマットやハードウェアバックエンドをサポートしています。高度なオペレーター最適化、量子化技術、分散推論機能を統合することで、大規模言語モデルに対して効率的なプロダクションレベルのサービスを提供します。

ROLL は、大規模 GPU クラスター上での LLM の学習とスケーリングに特化した、効率的で使いやすい強化学習ライブラリです。Ray を活用したマルチロール分散アーキテクチャを採用しており、人間の好みへの調整や推論、エージェント的な相互作用といった複雑なタスクをサポートします。Megatron-Core、vLLM、SGLang などの高度な技術を統合することで、多様なハードウェア環境全体でモデルの学習と推論を高速化します。

bilibili / Index-anisora

Index-AniSora は、高品質なアニメ動画生成とアニメーション制作のために設計された強力なオープンソースフレームワークです。このシステムは、包括的なデータ処理パイプライン、時空間マスキングを備えた制御可能な生成モデル、および専門的な評価ベンチマークを特徴としています。キャラクターの 3D 生成、動画のスタイル変換、正確なモーション制御のためのマルチモーダルガイダンスなど、多様なクリエイティブタスクをサポートします。

alibaba / rtp-llm

RTP-LLM は Alibaba Foundation Model Inference Team が開発した高性能な大規模モデル推論アクセラレーションエンジンであり、Taobao や Tmall などの多様なビジネスシナリオで広く活用されています。高度な CUDA カーネルと量子化技術を統合することで、モデルの推論パフォーマンスと効率を大幅に向上させます。さらに、複数のモデルフォーマット、マルチモーダル入力、LoRA サービスデプロイメントをサポートする高い柔軟性を備えています。

bytedance / Protenix

Protenix は、高精度な生体分子構造予測のために設計されたオープンソースのフレームワークであり、最先端の手法に匹敵する性能を持つモデルを提供します。本プロジェクトでは、抗体・抗原の構造予測やリガンド関連の妥当性において大幅な改善を示す Protenix-v2 を含む複数のバージョンが提供されています。Apache 2.0 ライセンスの下で公開されており、学術研究および商用研究の両方で自由に利用可能です。

Tencent / AngelSlim

AngelSlim は、大規模言語モデル、ビジョンモデル、および拡散モデル向けに効率的な圧縮ソリューションを提供する高度に統合されたツールキットです。高度な量子化、Speculative decoding、Token pruning など、モデルのパフォーマンスを最適化するための幅広い技術をサポートしています。このフレームワークは、さまざまなハードウェア環境全体でトレーニング、デプロイ、およびパフォーマンス評価を行うための統一されたインターフェースを開発者に提供します。

bilibili / Index-anisora

Index-AniSora は Bilibili が開発した高品質なアニメ動画生成のための包括的なオープンソースシステムです。本プロジェクトは制御可能な生成モデル、専門的なデータ処理パイプライン、およびアニメーションの美学に最適化された評価ベンチマークを提供します。キャラクターの 3D 動画生成、動画スタイル変換、マルチモーダルガイダンスといった高度な機能をサポートし、多様なアニメーション制作タスクを促進します。

alibaba / TorchEasyRec

TorchEasyRec は、本番環境向けのディープラーニング推薦モデルを開発するために設計された PyTorch ベースのフレームワークです。候補生成、ランキング、マルチタスク学習、生成型推薦など、幅広いタスクをサポートしています。このフレームワークは、高いスケーラビリティ、柔軟なデータソース統合、そして実運用環境へのシームレスなデプロイオプションを提供します。

OpenBMB / VoxCPM

VoxCPM2 は、diffusion autoregressive アーキテクチャを活用して高品質で表現力豊かな音声を生成する、2B パラメータの tokenizer-free な text-to-speech システムです。本モデルは 30 言語に対応しており、ボイスデザイン、制御可能な voice cloning、スタジオ品質の 48kHz 出力といった高度な機能を提供します。Apache-2.0 ライセンスの下で完全にオープンソース化されており、vLLM-Omni や Nano-vLLM を介した本番環境向けのデプロイメントオプションも用意されています。

PaddlePaddle / PaddleCustomDevice

PaddleCustomDevice は PaddlePaddle フレームワークが提供するカスタムハードウェア統合ソリューションです。標準化されたインターフェース設計を通じて、開発者は様々なサードパーティ製ハードウェアバックエンドを PaddlePaddle エコシステムに統合できます。現在は Ascend、Cambricon、Intel GPU、Apple MPS を含む主要なハードウェアプラットフォームをサポートしています。

bytedance / jaqmc

JaQMC は、ニューラルネットワークを用いた量子モンテカルロシミュレーションを実行するために設計された、モジュール式の JAX ベースのフレームワークです。深層ニューラルネットワークを変分波動関数として利用し、従来の基底関数系に依存することなく電子の Schrödinger 方程式を解きます。本プロジェクトは、高度に構成可能で拡張性の高いアーキテクチャを通じて、分子、固体、分数量子ホール状態を含む多様な量子システムをサポートします。

baidu / vLLM-Kunlun

vLLM Kunlun は、Kunlun XPU ハードウェア上で vLLM をシームレスに実行可能にするコミュニティ主導のハードウェアプラグインです。ハードウェアプラグイン可能なインターフェースを活用して統合プロセスを分離し、幅広いオープンソースモデルとの互換性を確保しています。本プロジェクトは、Kunlun3 P800 プラットフォーム上で Transformer ベース、Mixture-of-Expert、マルチモーダル LLM を含む多様なアーキテクチャをサポートします。

google / magika

Magika は deep learning を活用し、200 種類以上のファイル形式を極めて高精度に識別する AI ツールです。最適化されたモデルにより、約 99% の精度を維持しながらミリ秒単位での推論結果を提供します。本プロジェクトは、多様な開発ワークフローを支援するため、汎用的な command-line interface と Python、JavaScript、Rust 向けの language bindings を提供しています。

k2-fsa / OmniVoice

OmniVoice は、600 以上の言語に対応した diffusion language model アーキテクチャに基づく高度な大規模多言語 zero-shot 音声合成モデルです。このモデルは優れた推論速度を誇り、高品質な voice cloning や voice design 機能を備えています。ユーザーは Python API やコマンドラインツールを通じて簡単に音声生成を行えるほか、非言語シンボルの挿入や詳細な発音制御も可能です。

microsoft / VibeVoice

VibeVoice は、連続音声トークナイザーと次トークン拡散を用いて高忠実度な音声処理を実現するオープンソースの音声 AI モデル群です。本フレームワークには、長文の音声認識やリアルタイムのストリーミング text-to-speech 生成のための高度なツールが含まれています。これらのモデルは、音声合成コミュニティにおける協力と革新を促進するための研究目的で設計されています。

baidu / vLLM-Kunlun

vLLM Kunlun は、vLLM を Kunlun XPU デバイス上でシームレスに実行可能にするコミュニティ管理のハードウェアプラグインです。これはハードウェアプラグ可能なインターフェースとして機能し、ユーザーは vLLM のソースコードを変更することなく、様々な大規模言語モデルやマルチモーダルモデルを実行できます。本プロジェクトは、量子化、LoRA ファインチューニング、ハードウェアアクセラレーションによるグラフ最適化などの高度な機能をサポートし、高性能な推論を実現します。

PaddlePaddle / docs

本リポジトリには、公式の PaddlePaddle ドキュメントプラットフォームのソースファイルが格納されています。開発者を支援するため、コンテンツは API リファレンス、ユーザーガイド、チュートリアルごとに特定のディレクトリへ整理されています。また、ローカルでのドキュメント生成やコミュニティによる貢献を促進するための CI スクリプトやビルド手順も提供しています。

PaddlePaddle / PaddleCustomDevice

PaddleCustomDevice は、PaddlePaddle ディープラーニングフレームワークが提供するカスタムハードウェア統合ソリューションです。本プロジェクトは、開発者が多様なサードパーティ製ハードウェアバックエンドを PaddlePaddle エコシステムへ効率的に統合できるよう支援することを目的としています。現在、Ascend、Cambricon、Intel GPU、Apple MPS を含む、さまざまな主要ハードウェアプラットフォームをサポートしています。

PaddlePaddle / PaConvert

本ツールは Paddle が公式に保守しており、PyTorch コードから PaddlePaddle コードへの効率的な自動移行を実現します。1,600 以上の PyTorch API および 200 以上の torchvision API のワンクリック変換をサポートし、テストでは平均 95% 以上の変換率を維持しています。変換プロセスはコマンドライン経由で操作され、元のコードのスタイルと構造を保持しつつ、詳細な変換ログとサマリーを提供します。

PaddlePaddle / community

PaddlePaddle コミュニティは、開発者がコードの改善やドキュメント作成、プレゼンテーションを通じてフレームワークに貢献するための中心的なハブです。組織的なガバナンスや専門的なワーキンググループ、多様なメンターシッププログラムを提供し、積極的な参加を支援しています。貢献者は公式認定やリリースノートへの記載、プロジェクトの著者記録への追加を通じて評価されます。

shiyu-coder / Kronos

Kronos は、金融市場の K-line シーケンスを分析および予測するために特別に設計されたオープンソースの decoder-only foundation model です。多次元の市場データを階層的な token に量子化し、autoregressive Transformer を通じて処理する 2 段階のフレームワークを採用しています。このプロジェクトでは、直接的な予測とドメイン固有の fine-tuning の両方に適した、事前学習済みモデルとツールの包括的なスイートを提供します。

rohitg00 / ai-engineering-from-scratch

AI Engineering from Scratch は、線形代数の基礎から自律型エージェント群の構築までを網羅した 320 時間の包括的なカリキュラムです。本コースでは AI ネイティブな学習アプローチを重視しており、受講生は 20 のフェーズを通じて AI コーディングエージェントを活用し、知識の検証や再利用可能なツールの開発を行います。Python、TypeScript、Rust、Julia を横断的に扱うことで、実環境へデプロイ可能なプロンプトやスキル、エージェントからなるプロフェッショナルなポートフォリオを構築できます。

// プロジェクト別ユースケース

01Automatic distributed parallel training for large-scale models
02High-order automatic differentiation for scientific computing applications
03Heterogeneous multi-chip adaptation through a standardized, pluggable architecture

01Intelligent document parsing for LLM-ready structured data extraction
02Universal multilingual text recognition for natural scene and document analysis
03Building high-quality datasets for fine-tuning Large Language Models

01Supports a variety of mainstream CNN models, including classification, detection, segmentation, and face recognition algorithms.
02Provides cross-platform deployment capabilities, supporting environments such as Android, iOS, Windows, Linux, macOS, and WebAssembly.
03Helps developers port deep learning algorithms to mobile devices through efficient implementation, enabling the rapid deployment of artificial intelligence applications.

01Efficiently deploy deep learning algorithm models on mobile devices
02Support mainstream CNN networks such as YOLO, MobileNet, and ResNet
03Achieve high-performance cross-platform neural network inference computation

01Unified dynamic and static graph training with automatic parallelism
02Integrated large model training and inference workflows
03High-order differentiation for scientific computing and differential equations

// 比較

PaddleOCR vs FlashMLA ncnn vs ncnn ncnn vs MNN FastDeploy vs ncnn

// 関連トピック

LLM (11)PaddlePaddle (9)Computer Vision (7)Inference (6)Machine Learning (6)