ホーム › トピック › LLM

// トピック

LLM

117直近 90 日のトレンド·117累計

// 今月の新着

// エコシステム

AI 114

Security 2

Frontend 1

// 最近の新着

すべての新着 →

#1ZhangXuefeng.skill: A Thinking Framework Based on Cognitive Models🆕 27 日前↗ 673.31/d★ 6,766 #2Hermes Agent: The Complete Guide (Orange Book)🆕 24 日前↗ 366.31/d★ 3,426 #3OpenClaw AI Agent Best Use Cases and Case Collection🆕 2 か月前↗ 205.61/d★ 3,959 #4Tong Jincheng.skill: An interpersonal relationship analysis tool based on the 'Deep-Feeling Grandmaster' mindset🆕 27 日前↗ 179.12/d★ 1,789 #5Awesome DeepSeek Agent Integration Guides🆕 5 日前↗ 151.86/d★ 483

// 今週の TOP 10

deepseek-ai / FlashMLA

FlashMLA は DeepSeek-V3 および DeepSeek-V3.2 モデルを駆動するために特別に設計された高性能な attention kernel ライブラリです。Prefill および decoding ステージにおける sparse attention と dense attention の両方に対して最適化された実装を提供します。本ライブラリは FP8 KV cache のような高度な機能をサポートしており、SM90 や SM100 を含む様々な GPU アーキテクチャと互換性があります。

BerriAI / litellm

LiteLLM は、100 以上の LLM プロバイダーと一貫した OpenAI 互換フォーマットで対話するための統合インターフェースを提供します。開発者は Python SDK として直接統合したり、本番環境向けのプロキシサーバーとしてデプロイしたりできます。このプラットフォームは、ロードバランシング、支出追跡、仮想キーなどの機能を提供することで LLM 管理を簡素化します。

TabbyML / tabby

Tabby は GitHub Copilot のオンプレミス代替として設計された、オープンソースのセルフホスト型 AI コーディングアシスタントです。外部のクラウドサービスやデータベース管理を必要としない、自己完結型のシステムとして動作します。コンシューマー向け GPU をサポートしており、既存の開発インフラとシームレスに統合するための OpenAPI インターフェースを提供します。

deepseek-ai / Thinking-with-Visual-Primitives

Thinking with Visual Primitives は、空間マーカーを推論プロセスに直接組み込むことで、Multimodal Large Language Models に対する新しいアプローチを導入します。この手法は、抽象的な言語を具体的な物理座標に固定することで、複雑な構造タスクにおける参照のギャップを解消します。本フレームワークは、圧縮されたアーキテクチャを通じて高い visual token 効率を維持しながら、最先端の性能を実現します。

alibaba / page-agent

Page Agent は、ブラウザ内で直接 Web インターフェースを自然言語で制御可能にするクライアントサイドライブラリです。スクリーンショットや複雑な headless browser の設定を必要とせず、テキストベースの DOM 操作を利用して要素と対話します。開発者はこのツールを簡単に統合し、AI copilot の構築やフォーム入力の自動化、Web アクセシビリティの向上を実現できます。

Khoj は、多様なローカルおよびオンラインの LLM と統合することで、ユーザーの能力を拡張するように設計された汎用的なパーソナル AI アプリケーションです。ユーザーは、複数のプラットフォームからアクセス可能な統合インターフェースを通じて、個人のドキュメントやインターネットと対話できます。このプロジェクトはオープンソースであり、プライベートなオンデバイス環境からスケーラブルなエンタープライズ向けクラウドソリューションまで、柔軟なデプロイメントオプションをサポートしています。

Mininglamp-AI / Mano-P

Mano-P は Mac mini や MacBook などのエッジデバイス上で自律的かつプライベートなタスク実行を実現するために設計された GUI-VLA エージェントプロジェクトです。高度な強化学習とエッジネイティブな推論を活用し、複雑な GUI 自動化、システム横断的なデータ統合、および長期的なタスク計画を実行します。本プロジェクトはクラウド API 呼び出しを不要にしつつ、様々なベンチマークで高いパフォーマンスを維持するセキュアなローカルファーストのソリューションを提供します。

bytedance / deer-flow

DeerFlow は、複雑なタスク実行のためにサブエージェント、メモリ、サンドボックスを統合するオープンソースのスーパーエージェントハーネスです。バージョン 2.0 で全面的に書き直され、モジュール式のスキルおよびツールアーキテクチャを通じて拡張性が向上しました。ローカル開発環境や Docker ベースのプロダクション環境など多様なデプロイ先をサポートし、複数のメッセージングチャネルとの統合も可能です。

Slime は、大規模言語モデル向けの強化学習をスケールさせるために設計された専門的なポストトレーニングフレームワークです。Megatron-LM による高性能な学習と SGLang を統合し、柔軟かつ効率的なデータ生成ワークフローを提供します。学習プロセスとロールアウトプロセスを分離するアーキテクチャにより、研究者は複雑なエージェント型 RL システムを構築およびデプロイできます。

deepseek-ai / DeepGEMM

DeepGEMM は、最新の LLM に最適化された高性能な Tensor Core カーネルを提供する統合 CUDA ライブラリです。インストール時の CUDA コンパイルを不要にする軽量な Just-In-Time コンパイルモジュールを備えています。FP8、FP4、BF16 の GEMM や、fused MoE および MQA スコアリングなど、多様な行列演算において専門家が調整したパフォーマンスを実現します。

// 累計の注目 (50)

deepseek-ai / FlashMLA

FlashMLA は DeepSeek-V3 および DeepSeek-V3.2 モデルを駆動するために特別に設計された高性能な attention kernel ライブラリです。Prefill および decoding ステージにおける sparse attention と dense attention の両方に対して最適化された実装を提供します。本ライブラリは FP8 KV cache のような高度な機能をサポートしており、SM90 や SM100 を含む様々な GPU アーキテクチャと互換性があります。

deepseek-ai / FlashMLA

FlashMLA は DeepSeek が開発した高性能な attention カーネルライブラリであり、同社の V3 および V3.2-Exp モデルを支えています。このリポジトリは、prefill および decoding 段階における sparse および dense attention メカニズムの専用実装を提供します。これらのカーネルは SM90 や SM100 を含む NVIDIA GPU アーキテクチャ向けに最適化されており、大幅な計算スループットの向上を実現します。

BerriAI / litellm

LiteLLM は、100 以上の LLM プロバイダーと一貫した OpenAI 互換フォーマットで対話するための統合インターフェースを提供します。開発者は Python SDK として直接統合したり、本番環境向けのプロキシサーバーとしてデプロイしたりできます。このプラットフォームは、ロードバランシング、支出追跡、仮想キーなどの機能を提供することで LLM 管理を簡素化します。

PaddlePaddle / PaddleOCR

PaddleOCR は、画像や PDF ドキュメントを Markdown や JSON といった LLM 向けの構造化データ形式に変換するために設計された包括的なツールキットです。最先端の vision-language models と 100 以上の言語をサポートする高性能な text recognition engines を備えています。主要な AI agent や RAG frameworks に広く統合されており、多様な hardware backends 全体で効率的な deployment が可能です。

TabbyML / tabby

Tabby は GitHub Copilot のオンプレミス代替として設計された、オープンソースのセルフホスト型 AI コーディングアシスタントです。外部のクラウドサービスやデータベース管理を必要としない、自己完結型のシステムとして動作します。コンシューマー向け GPU をサポートしており、既存の開発インフラとシームレスに統合するための OpenAPI インターフェースを提供します。

deepseek-ai / Thinking-with-Visual-Primitives

Thinking with Visual Primitives は、空間マーカーを推論プロセスに直接組み込むことで、Multimodal Large Language Models に対する新しいアプローチを導入します。この手法は、抽象的な言語を具体的な物理座標に固定することで、複雑な構造タスクにおける参照のギャップを解消します。本フレームワークは、圧縮されたアーキテクチャを通じて高い visual token 効率を維持しながら、最先端の性能を実現します。

alibaba / page-agent

Page Agent は、ブラウザ内で直接 Web インターフェースを自然言語で制御可能にするクライアントサイドライブラリです。スクリーンショットや複雑な headless browser の設定を必要とせず、テキストベースの DOM 操作を利用して要素と対話します。開発者はこのツールを簡単に統合し、AI copilot の構築やフォーム入力の自動化、Web アクセシビリティの向上を実現できます。

Khoj は、多様なローカルおよびオンラインの LLM と統合することで、ユーザーの能力を拡張するように設計された汎用的なパーソナル AI アプリケーションです。ユーザーは、複数のプラットフォームからアクセス可能な統合インターフェースを通じて、個人のドキュメントやインターネットと対話できます。このプロジェクトはオープンソースであり、プライベートなオンデバイス環境からスケーラブルなエンタープライズ向けクラウドソリューションまで、柔軟なデプロイメントオプションをサポートしています。

Mininglamp-AI / Mano-P

Mano-P は Mac mini や MacBook などのエッジデバイス上で自律的かつプライベートなタスク実行を実現するために設計された GUI-VLA エージェントプロジェクトです。高度な強化学習とエッジネイティブな推論を活用し、複雑な GUI 自動化、システム横断的なデータ統合、および長期的なタスク計画を実行します。本プロジェクトはクラウド API 呼び出しを不要にしつつ、様々なベンチマークで高いパフォーマンスを維持するセキュアなローカルファーストのソリューションを提供します。

bytedance / deer-flow

DeerFlow は、複雑なタスク実行のためにサブエージェント、メモリ、サンドボックスを統合するオープンソースのスーパーエージェントハーネスです。バージョン 2.0 で全面的に書き直され、モジュール式のスキルおよびツールアーキテクチャを通じて拡張性が向上しました。ローカル開発環境や Docker ベースのプロダクション環境など多様なデプロイ先をサポートし、複数のメッセージングチャネルとの統合も可能です。

deepseek-ai / TileKernels

TileKernels は TileLang フレームワークを使用して LLM 操作向けに設計された高性能な GPU kernel のコレクションを提供します。本プロジェクトには Mixture of Experts のルーティング、高度な量子化技術、および manifold hyper-connection 操作のための専門的な実装が含まれています。これらの kernel はハードウェア性能を最大化するように構築されており、現在内部のトレーニングや推論ワークフローで活用されています。

MNN は、モバイルや組み込みデバイスでの効率的なモデル推論と学習のために設計された、高性能かつ軽量なディープラーニングフレームワークです。幅広いニューラルネットワークアーキテクチャをサポートし、モデルの変換、圧縮、汎用計算のための多機能なツールを提供します。このフレームワークは、デバイスとクラウドが連携する機械学習を実現するために、Alibaba の様々なアプリケーションを含む本番環境で広く利用されています。

WeaveMindAI / weft

Weft は LLM 、人間による操作、およびインフラストラクチャを統合された視覚的ワークフローに組み込むために設計されたプログラミング言語です。プログラムのクラッシュ時にも動作を継続させる耐久実行機能を備え、型定義されたモジュール式ノードシステムを通じて複雑なロジックをサポートします。開発者は手動での配線作業を必要とせず、ネイティブノードを接続するだけで高度なエージェントシステムを構築および管理できます。

Slime は、大規模言語モデル向けの強化学習をスケールさせるために設計された専門的なポストトレーニングフレームワークです。Megatron-LM による高性能な学習と SGLang を統合し、柔軟かつ効率的なデータ生成ワークフローを提供します。学習プロセスとロールアウトプロセスを分離するアーキテクチャにより、研究者は複雑なエージェント型 RL システムを構築およびデプロイできます。

deepseek-ai / DeepGEMM

DeepGEMM は、最新の LLM に最適化された高性能な Tensor Core カーネルを提供する統合 CUDA ライブラリです。インストール時の CUDA コンパイルを不要にする軽量な Just-In-Time コンパイルモジュールを備えています。FP8、FP4、BF16 の GEMM や、fused MoE および MQA スコアリングなど、多様な行列演算において専門家が調整したパフォーマンスを実現します。

bytedance / deer-flow

DeerFlow 2.0 は、サブエージェント、メモリ、サンドボックスを統合管理するためにゼロから再設計されたオープンソースのスーパーエージェントハーネスです。拡張可能なスキルを活用し、多様な AI モデルと連携することで、柔軟なコンテナ化アーキテクチャを通じて複雑なタスクを実行します。本フレームワークは複数のデプロイモードをサポートし、Slack、Telegram、Feishu といったメッセージングプラットフォームとのシームレスな接続を提供します。

PaddlePaddle / PaddleFormers

PaddleFormers は Baidu PaddlePaddle フレームワーク上に構築された Transformers ライブラリであり、Hugging Face と同等の Large Language Models および Vision-Language Models 向けの学習インターフェースと機能体験を提供します。Tensor parallelism、Pipeline parallelism、および Automatic mixed precision を統合することで、主要モデルにおいて Megatron-LM を凌駕する学習パフォーマンスを実現しました。さらに、国内のコンピューティングチップを完全にサポートし、Safetensors 形式と互換性があるため、開発者は Pre-training から Post-training までの全プロセスを効率的に完了できます。

Tencent / WeKnora

WeKnora は、エンタープライズレベルのドキュメント理解、セマンティック検索、および自律的な推論のために設計されたオープンソースの LLM 駆動型フレームワークです。複雑なマルチステップタスクを実行する ReAct エージェントと、生のドキュメントを構造化された相互リンク型のナレッジベースに要約する Wiki モードを備えています。このプラットフォームは、マルチソースのデータ取り込み、多様な LLM 統合、および完全なデータ主権を保証する柔軟なデプロイオプションをサポートしています。

nesquena / hermes-webui

Hermes WebUI は、Hermes Agent CLI と完全な互換性を持つ軽量なダークテーマのブラウザインターフェースを提供します。複雑なビルド手順やフレームワークを必要とせず、チャット、ファイル管理、セッションナビゲーションのための3パネルレイアウトを備えています。ユーザーは SSH トンネルやモバイルデバイス経由でセルフホストされたエージェントに安全にアクセスし、永続的なメモリとセッション間のコンテキストを維持できます。

farion1231 / cc-switch

CC Switch は Claude Code、Codex、Gemini CLI、OpenCode、OpenClaw の管理を一元化するために設計されたデスクトップアプリケーションです。50 種類以上の組み込みプロバイダープリセットとシステムトレイからのクイック切り替え機能により、手動での設定ファイル編集が不要になります。また、MCP サーバー、プロンプト、スキルの統合管理機能に加え、デバイス間でのクラウド同期にも対応しています。

elder-plinius / CL4R1T4S

CL4R1T4S は、主要な AI モデルやエージェントが使用する隠されたシステムプロンプト、ガイドライン、ツールを公開するための包括的なリポジトリです。これらの目に見えない指示を文書化することで、AI の動作や意思決定を形成する基盤となるフレームワークをユーザーがより明確に理解することを目指しています。このプラットフォームは、業界をリードする様々な AI プロバイダーから抽出されたシステムプロンプトの最新コレクションを維持するために、コミュニティによる貢献を推奨しています。

VoltAgent / awesome-design-md

本リポジトリは、主要な Web サイトのビジュアルアイデンティティやデザインシステムを定義する DESIGN.md ファイルの厳選されたコレクションを提供します。これらの Markdown ベースのドキュメントにより、AI コーディングエージェントは複雑なツールや Figma エクスポートを必要とせずに、特定の UI スタイルを理解し再現できます。各エントリには詳細なデザイントークン、タイポグラフィのルール、コンポーネントのスタイリングが含まれており、一貫性のあるピクセルパーフェクトな AI 生成インターフェースを実現します。

HKUDS / RAG-Anything

RAG-Anything は、テキスト、画像、表、数式など多様なドキュメント形式を処理およびクエリするために設計された包括的なフレームワークです。LightRAG を基盤として構築されており、マルチモーダルなコンテンツを統合された知識グラフに組み込み、インテリジェントな検索を実現するエンドツーエンドのパイプラインを提供します。本システムは、複雑なドキュメント分析のための単一で一貫したインターフェースを提供することで、複数の専門ツールを使い分ける必要性を排除します。

Gitlawb / openclaude

OpenClaude は、多様なクラウドおよびローカルのモデルプロバイダーをサポートするオープンソースのコーディングエージェント CLI です。ファイル管理、bash 実行、エージェントタスクのためのツールを備えた、ターミナルファーストの統合ワークフローを提供します。ユーザーは OpenAI、Ollama、Gemini などの様々なバックエンドを容易に統合し、エージェントルーティングや gRPC サポートといった高度な機能を活用できます。

bytedance / agentkit-samples

AgentKit Code Workshop は、 Volcengine が提供する AI Agent 開発プラットフォームのサンプルリポジトリであり、開発者がインテリジェントなエージェントの構築とデプロイを迅速に習得できるよう設計されています。本プロジェクトでは、基礎的な導入から複雑なシナリオまで多岐にわたるコード例を提供し、 Multi-agent collaboration 、 RAG 検索拡張、 Tool invocation といった主要機能を網羅しています。開発者はこれらのチュートリアルを通じて AgentKit 開発ツールチェーンを深く理解し、様々なビジネスアプリケーションへ効率的に統合することが可能です。

Slime は、Megatron による高性能な学習と SGLang による効率的なロールアウト生成を統合し、RL スケーリングを実現する LLM ポストトレーニングフレームワークです。このフレームワークはデータバッファを活用して学習と生成を橋渡しし、複雑な RL タスクに向けた柔軟かつ非同期なワークフローを可能にします。GLM、Qwen、DeepSeek、Llama シリーズを含む、幅広い最先端モデルをサポートしています。

ROLL は、大規模な GPU クラスター全体で LLM の強化学習ワークフローを拡張するために設計された、効率的で使いやすいライブラリです。RLVR、エージェントによる対話、蒸留など多様な学習パラダイムをサポートし、Megatron-Core、vLLM、SGLang といった高度なバックエンドを統合しています。複雑な推論や人間の好みへの調整タスクにおいて、パフォーマンスを向上させるための堅牢な可観測性と柔軟なリソース管理を提供します。

XiaoMi / xiaomi-miloco

Xiaomi Miloco は、オンデバイスの LLM を活用して IoT デバイスを統合および制御するオープンソースのスマートホームソリューションです。カメラのデータストリームを活用することで、複雑なホームオートメーションやイベント分析のための自然言語対話を実現します。視覚的な理解やタスク計画をユーザーのハードウェア上でローカルに実行し、ユーザーのプライバシーを最優先します。

alchaincyf / hermes-agent-orange-book

本書は Nous Research が開発した Hermes Agent フレームワークを詳細に解説する包括的なガイドです。自己改善型の学習ループやメモリシステム、自動化されたスキル進化といった中核となるメカニズムを全 17 章にわたって網羅しています。本書は、独自のインテリジェントエージェントを実装・カスタマイズしたい開発者や AI 愛好家にとっての実践的なリソースとなります。

Tencent / AI-Infra-Guard

AI-Infra-Guard は Tencent Zhuque Lab が開発したオープンソースのレッドチーミングプラットフォームであり、AI インフラストラクチャに対する包括的なセキュリティ自己診断を提供します。AI コンポーネントの脆弱性検出、エージェントワークフローのセキュリティ、ジェイルブレイク評価など、複数のスキャン機能を統合しています。モダンな Web インターフェースと堅牢な API を備えており、セキュリティワークフローへのシームレスな統合が可能です。

Ant Design X は、インテリジェントな AI インターフェースを構築するために設計された、包括的なアトミックコンポーネントとユーティリティ API を提供します。このライブラリには、ストリーミング Markdown レンダリング、動的なカード生成、および AI エージェントのデータストリーム管理のための専門的なツールが含まれています。開発者が高品質でインタラクティブな AI 会話アプリケーションを効率的に作成できるよう、エンタープライズレベルのエコシステムを提供します。

openocta / openocta

OpenOcta は、バックエンドと埋め込みフロントエンドを単一の Go バイナリにカプセル化した、完全自社開発のエンタープライズ向け AI Agent ランタイムおよびコントロールプレーンです。本プロジェクトは、インテリジェントな会話、プロセス自動化、そしてビジネスシステムや API、ツールチェーンとの深い統合をサポートします。ユーザーは CLI、HTTP、または WebSocket を介して、迅速にデプロイし、社内ビジネスシステムへ接続可能です。

abi / secret-llama

Secret Llama はブラウザ内で完結するチャットボットであり、Llama 3 や Mistral といったオープンソースモデルをローカルで実行可能です。アプリケーションがブラウザ上で直接動作するため、すべての会話データはプライベートに保たれ、サーバーのインストールも不要です。このプラットフォームは WebGPU テクノロジーを活用してパフォーマンスを最適化し、オフラインでも動作する使いやすいインターフェースを提供します。

PaddlePaddle / FastDeploy

FastDeploy は PaddlePaddle をベースとした大規模言語モデルおよび視覚言語モデル向けの推論デプロイメントツールキットであり、すぐに利用可能なプロダクトグレードのデプロイソリューションを提供します。本ツールは多様な主要ハードウェアプラットフォームをサポートし、負荷分散された PD 分離、統合された KV cache 転送、および複数の高度な高速化技術を統合しています。開発者は OpenAI API 互換インターフェースを通じて迅速なデプロイを実現し、完全な量子化フォーマットサポートを活用して推論パフォーマンスを最適化できます。

Tencent / AI-Infra-Guard

AI-Infra-Guard は Tencent Zhuque Lab が開発したプロフェッショナルな AI red teaming セキュリティ評価プラットフォームであり、企業や個人向けに包括的な AI セキュリティリスクの自己診断ソリューションを提供します。本プラットフォームは AI infrastructure の脆弱性スキャン、Agent workflow のセキュリティ評価、MCP server のスキャン、jailbreak テストといった中核機能を統合しています。ユーザーは Docker を介して迅速にデプロイでき、モダンな Web インターフェースと堅牢な API を活用して効率的なセキュリティ検出と管理を実現可能です。

alibaba / rtp-llm

RTP-LLM は Alibaba Foundation Model Inference チームによって開発された高性能な LLM 推論アクセラレーションエンジンです。このエンジンは Taobao や Tmall といった Alibaba の多様なビジネスシナリオで広く活用されており、主要なモデルフォーマットやハードウェアバックエンドをサポートしています。高度なオペレーター最適化、量子化技術、分散推論機能を統合することで、大規模言語モデルに対して効率的なプロダクションレベルのサービスを提供します。

ROLL は、大規模 GPU クラスター上での LLM の学習とスケーリングに特化した、効率的で使いやすい強化学習ライブラリです。Ray を活用したマルチロール分散アーキテクチャを採用しており、人間の好みへの調整や推論、エージェント的な相互作用といった複雑なタスクをサポートします。Megatron-Core、vLLM、SGLang などの高度な技術を統合することで、多様なハードウェア環境全体でモデルの学習と推論を高速化します。

NousResearch / hermes-agent

Hermes Agent は Nous Research が設計した自己改善型 AI アシスタントであり、組み込みの学習ループを通じてスキルを作成および洗練します。幅広い LLM プロバイダーをサポートしており、Telegram、Discord、ローカルターミナル環境など、さまざまなプラットフォームにデプロイ可能です。このシステムは、永続的なメモリ、スケジュールされた自動化、および複雑で並列化されたタスクのためのサブエージェントを生成する機能を備えています。

PaddlePaddle / FastDeploy

FastDeploy は PaddlePaddle をベースとした大規模言語モデルおよび視覚言語モデル向けの推論デプロイメントツールキットであり、すぐに利用可能なプロダクションレベルのデプロイメントソリューションを提供することを目指しています。本ツールキットは多様な主要ハードウェアプラットフォームをサポートし、負荷分散型の PD 分離、統合された KV キャッシュ転送、完全な量子化フォーマット対応といったコア技術を統合しています。OpenAI API や vLLM インターフェースとの互換性により、開発者が効率的にモデル推論やオンラインサービスのデプロイメントを実現できるよう支援します。

alibaba / rtp-llm

RTP-LLM は Alibaba Foundation Model Inference Team が開発した高性能な大規模モデル推論アクセラレーションエンジンであり、Taobao や Tmall などの多様なビジネスシナリオで広く活用されています。高度な CUDA カーネルと量子化技術を統合することで、モデルの推論パフォーマンスと効率を大幅に向上させます。さらに、複数のモデルフォーマット、マルチモーダル入力、LoRA サービスデプロイメントをサポートする高い柔軟性を備えています。

toverainc / willow

Willow Inference Server を使用すると、ユーザーはさまざまなアプリケーション向けに高速な言語推論タスクをセルフホストできます。このサーバーは、speech-to-text、text-to-speech、および large language model の処理を含む重要な機能をサポートしています。ユーザーは、プロジェクトの Web サイトや GitHub discussions を通じて、公式ドキュメントやコミュニティのサポートにアクセス可能です。

openai / openai-agents-python

OpenAI Agents SDK は、複雑なマルチエージェントワークフローを構築するために設計された軽量なフレームワークです。幅広い LLM をサポートし、ツール統合、ガードレール、Human-in-the-loop 機能などの重要な機能を提供します。開発者は、長時間実行されるタスクに sandbox エージェントを活用し、組み込みのトレーシング機能を使用してエージェントアプリケーションのデバッグや最適化を行うことができます。

meituan / EvoCUA

EvoCUA は、多様なデスクトップアプリケーション全体でエンドツーエンドのコンピューター自動化を実現するために設計された、高性能なオープンソースのマルチモーダルモデルです。現在 OSWorld ベンチマークでトップランクを保持しており、優れたクロス OS 汎化能力を実証しています。さらに、主要なコンピューター使用エージェントの中で最も低い意図しない動作率を示しており、堅牢な安全性プロファイルでも高く評価されています。

alchaincyf / zhangxuefeng-skill

ZhangXuefeng.skill は、単なる名言集ではなく、実行可能な思考フレームワークを提供するために深い研究に基づいて構築された認知オペレーティングシステムです。主要なメンタルモデル、意思決定のヒューリスティック、コミュニケーションの DNA を抽出することで、ユーザーが Zhang Xuefeng の視点から専攻選択やキャリアプランニングを分析できるよう支援します。ユーザーはこの skill をインストールすることで、Claude Code 内で的確な意思決定のアドバイスや詳細な分析を得ることが可能です。

Tencent / AngelSlim

AngelSlim は、大規模言語モデル、ビジョンモデル、および拡散モデル向けに効率的な圧縮ソリューションを提供する高度に統合されたツールキットです。高度な量子化、Speculative decoding、Token pruning など、モデルのパフォーマンスを最適化するための幅広い技術をサポートしています。このフレームワークは、さまざまなハードウェア環境全体でトレーニング、デプロイ、およびパフォーマンス評価を行うための統一されたインターフェースを開発者に提供します。

alibaba / tair-kvcache

Tair KVCache は、分散メモリプーリングと動的なマルチレベルキャッシュを通じて LLM 推論を高速化するために設計された Alibaba Cloud のシステムです。このプロジェクトは、グローバルな KVCache メタデータとストレージ容量を一元管理し、効率的なデータ信頼性とリソース活用を実現します。さらに、実際の GPU リソースを必要とせずにパフォーマンス指標を予測できる高精度なシミュレーションツールも含まれています。

GammaLabTechnologies / harmonist

Harmonist は、LLM のプロンプトに依存せず、IDE レベルのメカニカルなフックを通じて開発プロトコルを強制するポータブルなマルチエージェントフレームワークです。構造化され検証済みのメモリシステムとサプライチェーン検証を提供し、コードの変更が譲れない品質およびセキュリティ基準を満たすことを保証します。このフレームワークは Cursor や Claude Code といった一般的な AI コーディングアシスタントとシームレスに統合され、外部ランタイムやデータベースを必要とせずに 186 種類の専門エージェントカタログを提供します。

jnMetaCode / superpowers-zh

superpowers-zh は 17 種類の主要な AI コーディングツールに向けた体系的な作業手法を提供する中国語強化プロジェクトです。14 種類のコアとなるアップストリームスキルを完全にローカライズした上で、中国のデベロッパー向けに設計された 6 種類の専門スキルを追加しました。統一されたインストールコマンドを通じて、Claude Code や Cursor などのツールで現場で実証済みの開発ワークフローを簡単に構成できます。

XiaoMi / xiaomi-miloco

Xiaomi Miloco は Xiaomi Home カメラと独自開発の LLM を統合し IoT デバイスを制御するオープンソースの探索ソリューションです。オンデバイスモデルを活用して視覚データを処理し、ユーザーのプライバシーとセキュリティを確保しながらシーンを理解します。ユーザーは複雑なホームルールを定義し、自然言語を使用してスマートエコシステムと対話できます。

deepseek-ai / awesome-deepseek-agent

Awesome DeepSeek Agent は、DeepSeek モデルを様々な AI コーディングアシスタントやエージェントツールに統合するためのガイドをまとめたキュレーションリストです。各ガイドでは、インストール、設定、初期セットアップの手順をステップバイステップで解説し、スムーズなユーザー体験を実現します。開発者は、好みのターミナルやエディタ環境で DeepSeek-V4-Pro や DeepSeek-V4-Flash を素早く有効化できます。

// プロジェクト別ユースケース

01Token-level sparse attention for prefill and decoding stages
02Dense attention kernels for high-performance prefill and decoding
03FP8 KV cache support for optimized memory and compute efficiency

01Token-level sparse attention for efficient prefill and decoding stages
02Dense attention kernels for standard Multi-Head Attention (MHA) operations
03FP8 KV cache support to optimize memory usage during decoding

01Unified API for 100+ LLM providers
02Production-ready AI Gateway with load balancing and guardrails
03Seamless integration with MCP tools and A2A agents

01Intelligent document parsing for LLM-ready structured data extraction
02Universal multilingual text recognition for natural scene and document analysis
03Building high-quality datasets for fine-tuning Large Language Models

01Self-hosted AI code completion and generation
02Internal knowledge retrieval via the Answer Engine
03Integration with IDEs like VSCode, Vim, and IntelliJ

// 比較

FlashMLA vs FlashMLA litellm vs FlashMLA PaddleOCR vs FlashMLA voicebox vs willow voicebox vs neutts neutts vs willow

// 関連トピック

Automation (29)Agent (21)Python (18)AI Agents (18)Inference (12)