ホームトピックComputer Vision
// トピック

Computer Vision

16直近 90 日のトレンド·16累計

// 今月の新着

// エコシステム

Deep Learning7LLM6Generative AI5Machine Learning3Video Generation3Computer Vision
AI 16

// 最近の新着

すべての新着 →

// 今週の TOP 8

01
deepseek-ai / Thinking-with-Visual-Primitives
Thinking with Visual Primitives は、空間マーカーを推論プロセスに直接組み込むことで、Multimodal Large Language Models に対する新しいアプローチを導入します。この手法は、抽象的な言語を具体的な物理座標に固定することで、複雑な構造タスクにおける参照のギャップを解消します。本フレームワークは、圧縮されたアーキテクチャを通じて高い visual token 効率を維持しながら、最先端の性能を実現します。
84213
02
Mininglamp-AI / Mano-P
Mano-P は Mac mini や MacBook などのエッジデバイス上で自律的かつプライベートなタスク実行を実現するために設計された GUI-VLA エージェントプロジェクトです。高度な強化学習とエッジネイティブな推論を活用し、複雑な GUI 自動化、システム横断的なデータ統合、および長期的なタスク計画を実行します。本プロジェクトはクラウド API 呼び出しを不要にしつつ、様々なベンチマークで高いパフォーマンスを維持するセキュアなローカルファーストのソリューションを提供します。
831,264
03
XiaoMi / xiaomi-miloco
Xiaomi Miloco は、オンデバイスの LLM を活用して IoT デバイスを統合および制御するオープンソースのスマートホームソリューションです。カメラのデータストリームを活用することで、複雑なホームオートメーションやイベント分析のための自然言語対話を実現します。視覚的な理解やタスク計画をユーザーのハードウェア上でローカルに実行し、ユーザーのプライバシーを最優先します。
742,549
04
baidu / ERNIE-Image
ERNIE-Image は Baidu が開発した Diffusion Transformer (DiT) アーキテクチャに基づくオープンソースの text-to-image モデルです。このモデルは短い入力を構造化された詳細な記述に変換する軽量な prompt enhancer を備えており、8B パラメータ規模で業界最高水準の生成結果を実現します。複雑なテキストレンダリングやマルチオブジェクトのレイアウト、指示追従タスクに優れており、コンシューマー向け GPU での効率的なデプロイをサポートします。
71412
05
bilibili / Index-anisora
Index-AniSora は、高品質なアニメ動画生成とアニメーション制作のために設計された強力なオープンソースフレームワークです。このシステムは、包括的なデータ処理パイプライン、時空間マスキングを備えた制御可能な生成モデル、および専門的な評価ベンチマークを特徴としています。キャラクターの 3D 生成、動画のスタイル変換、正確なモーション制御のためのマルチモーダルガイダンスなど、多様なクリエイティブタスクをサポートします。
682,421
06
trycua / cua
Cua は、コンピューターのインターフェースを操作可能な自律型エージェントを構築、ベンチマーク、およびデプロイするための統合エコシステムを提供します。このプラットフォームには、macOS のバックグラウンド自動化、クロスプラットフォームのサンドボックス化、および高性能な仮想化のための専用ツールが含まれています。開発者はこれらのコンポーネントを活用して、タスクの実行、コードの実行、および複雑な GUI 環境のシームレスな操作を行うエージェントを作成できます。
55103
07
nikopueringer / CorridorKey
CorridorKey は、グリーンバックやブルーバックから被写体を分離する複雑な課題を解決するために設計されたニューラルネットワークベースのツールです。各ピクセルの真のストレートカラーとリニアアルファチャンネルを再構築し、髪の毛やモーションブラーなどの微細なディテールを効果的に保持します。本プロジェクトは、業界標準のコンポジットソフトウェアと互換性のある 16-bit および 32-bit のリニア float EXR ファイルを出力することで、高精度な VFX ワークフローをサポートします。
4223
08
Anil-matcha / Open-Generative-AI
Open Generative AI は、商用 AI メディアツールの制限のない代替手段を提供する無料のオープンソースプラットフォームです。コンテンツフィルターやサブスクリプション料金なしで、画像、動画、リップシンク生成のための 200 以上の最先端モデルをサポートしています。ユーザーは、ローカルおよびリモートの推論をサポートする Web ベースのインターフェースまたはデスクトップアプリケーションを通じて、これらの機能にアクセスできます。
39129

// 累計の注目 (16)

PaddlePaddle / PaddleOCR
PaddleOCR は、画像や PDF ドキュメントを Markdown や JSON といった LLM 向けの構造化データ形式に変換するために設計された包括的なツールキットです。最先端の vision-language models と 100 以上の言語をサポートする高性能な text recognition engines を備えています。主要な AI agent や RAG frameworks に広く統合されており、多様な hardware backends 全体で効率的な deployment が可能です。
89
Tencent / ncnn
ncnn はモバイルプラットフォーム向けに最適化された高性能なニューラルネットワーク推論フレームワークであり、モバイルデバイス上でのディープラーニングアルゴリズムのデプロイを簡素化します。サードパーティの依存関係がなくクロスプラットフォームに対応しており、モバイル CPU 上での実行速度は既存のオープンソースフレームワークを凌駕します。現在、ncnn は Tencent の様々な主要アプリケーションで広く利用されており、開発者がインテリジェントなアプリケーションを容易に構築できるよう支援しています。
89
Tencent / ncnn
ncnn は、モバイルプラットフォーム向けに深く最適化された高性能なニューラルネットワーク推論フレームワークです。サードパーティの依存関係がなく、クロスプラットフォーム対応を特徴としており、モバイル CPU 上で既存のオープンソースフレームワークを凌駕する性能を発揮します。開発者は ncnn を使用してディープラーニングモデルをモバイルデバイスへ容易に移植し、多様なインテリジェントアプリケーションを構築可能です。
87
deepseek-ai / Thinking-with-Visual-Primitives
Thinking with Visual Primitives は、空間マーカーを推論プロセスに直接組み込むことで、Multimodal Large Language Models に対する新しいアプローチを導入します。この手法は、抽象的な言語を具体的な物理座標に固定することで、複雑な構造タスクにおける参照のギャップを解消します。本フレームワークは、圧縮されたアーキテクチャを通じて高い visual token 効率を維持しながら、最先端の性能を実現します。
84
Mininglamp-AI / Mano-P
Mano-P は Mac mini や MacBook などのエッジデバイス上で自律的かつプライベートなタスク実行を実現するために設計された GUI-VLA エージェントプロジェクトです。高度な強化学習とエッジネイティブな推論を活用し、複雑な GUI 自動化、システム横断的なデータ統合、および長期的なタスク計画を実行します。本プロジェクトはクラウド API 呼び出しを不要にしつつ、様々なベンチマークで高いパフォーマンスを維持するセキュアなローカルファーストのソリューションを提供します。
83
alibaba / MNN
MNN は、モバイルや組み込みデバイスでの効率的なモデル推論と学習のために設計された、高性能かつ軽量なディープラーニングフレームワークです。幅広いニューラルネットワークアーキテクチャをサポートし、モデルの変換、圧縮、汎用計算のための多機能なツールを提供します。このフレームワークは、デバイスとクラウドが連携する機械学習を実現するために、Alibaba の様々なアプリケーションを含む本番環境で広く利用されています。
81
XiaoMi / xiaomi-miloco
Xiaomi Miloco は、オンデバイスの LLM を活用して IoT デバイスを統合および制御するオープンソースのスマートホームソリューションです。カメラのデータストリームを活用することで、複雑なホームオートメーションやイベント分析のための自然言語対話を実現します。視覚的な理解やタスク計画をユーザーのハードウェア上でローカルに実行し、ユーザーのプライバシーを最優先します。
74
PaddlePaddle / PaddleX
PaddleX 3.0 は PaddlePaddle フレームワークを基盤としたローコード開発ツールであり、豊富な事前学習済みモデルを統合してフルプロセスの開発をサポートします。最小限の Python API とグラフィカルインターフェースを通じて、モデルのトレーニングから推論デプロイメントまでの迅速な実装を実現します。さらに、国内外の主要なハードウェアと幅広く互換性があり、開発者が効率的に産業用アプリケーションを構築できるよう支援します。
72
baidu / ERNIE-Image
ERNIE-Image は Baidu が開発した Diffusion Transformer (DiT) アーキテクチャに基づくオープンソースの text-to-image モデルです。このモデルは短い入力を構造化された詳細な記述に変換する軽量な prompt enhancer を備えており、8B パラメータ規模で業界最高水準の生成結果を実現します。複雑なテキストレンダリングやマルチオブジェクトのレイアウト、指示追従タスクに優れており、コンシューマー向け GPU での効率的なデプロイをサポートします。
71
bilibili / Index-anisora
Index-AniSora は、高品質なアニメ動画生成とアニメーション制作のために設計された強力なオープンソースフレームワークです。このシステムは、包括的なデータ処理パイプライン、時空間マスキングを備えた制御可能な生成モデル、および専門的な評価ベンチマークを特徴としています。キャラクターの 3D 生成、動画のスタイル変換、正確なモーション制御のためのマルチモーダルガイダンスなど、多様なクリエイティブタスクをサポートします。
68
bilibili / Index-anisora
Index-AniSora は Bilibili が開発した高品質なアニメ動画生成のための包括的なオープンソースシステムです。本プロジェクトは制御可能な生成モデル、専門的なデータ処理パイプライン、およびアニメーションの美学に最適化された評価ベンチマークを提供します。キャラクターの 3D 動画生成、動画スタイル変換、マルチモーダルガイダンスといった高度な機能をサポートし、多様なアニメーション制作タスクを促進します。
61
XiaoMi / xiaomi-miloco
Xiaomi Miloco は Xiaomi Home カメラと独自開発の LLM を統合し IoT デバイスを制御するオープンソースの探索ソリューションです。オンデバイスモデルを活用して視覚データを処理し、ユーザーのプライバシーとセキュリティを確保しながらシーンを理解します。ユーザーは複雑なホームルールを定義し、自然言語を使用してスマートエコシステムと対話できます。
57
trycua / cua
Cua は、コンピューターのインターフェースを操作可能な自律型エージェントを構築、ベンチマーク、およびデプロイするための統合エコシステムを提供します。このプラットフォームには、macOS のバックグラウンド自動化、クロスプラットフォームのサンドボックス化、および高性能な仮想化のための専用ツールが含まれています。開発者はこれらのコンポーネントを活用して、タスクの実行、コードの実行、および複雑な GUI 環境のシームレスな操作を行うエージェントを作成できます。
55
jd-opensource / JoyAI-Image
JoyAI-Image は 8B Multimodal Large Language Model と 16B Multimodal Diffusion Transformer を統合し、画像の理解・生成・編集をサポートする統一マルチモーダル基盤モデルです。本モデルは理解と生成のクローズドループな連携を活用し、空間推論能力と制御可能な編集機能を強化しています。スケーラブルな学習パイプラインを提供し、マルチビュー生成や精密な空間操作といった高度な機能をサポートします。
52
nikopueringer / CorridorKey
CorridorKey は、グリーンバックやブルーバックから被写体を分離する複雑な課題を解決するために設計されたニューラルネットワークベースのツールです。各ピクセルの真のストレートカラーとリニアアルファチャンネルを再構築し、髪の毛やモーションブラーなどの微細なディテールを効果的に保持します。本プロジェクトは、業界標準のコンポジットソフトウェアと互換性のある 16-bit および 32-bit のリニア float EXR ファイルを出力することで、高精度な VFX ワークフローをサポートします。
42
Anil-matcha / Open-Generative-AI
Open Generative AI は、商用 AI メディアツールの制限のない代替手段を提供する無料のオープンソースプラットフォームです。コンテンツフィルターやサブスクリプション料金なしで、画像、動画、リップシンク生成のための 200 以上の最先端モデルをサポートしています。ユーザーは、ローカルおよびリモートの推論をサポートする Web ベースのインターフェースまたはデスクトップアプリケーションを通じて、これらの機能にアクセスできます。
39

// プロジェクト別ユースケース

PaddleOCR
  • 01Intelligent document parsing for LLM-ready structured data extraction
  • 02Universal multilingual text recognition for natural scene and document analysis
  • 03Building high-quality datasets for fine-tuning Large Language Models
ncnn
  • 01Supports a variety of mainstream CNN models, including classification, detection, segmentation, and face recognition algorithms.
  • 02Provides cross-platform deployment capabilities, supporting environments such as Android, iOS, Windows, Linux, macOS, and WebAssembly.
  • 03Helps developers port deep learning algorithms to mobile devices through efficient implementation, enabling the rapid deployment of artificial intelligence applications.
ncnn
  • 01Efficiently deploy deep learning algorithm models on mobile devices
  • 02Support mainstream CNN networks such as YOLO, MobileNet, and ResNet
  • 03Achieve high-performance cross-platform neural network inference computation
Thinking-with-Visual-Primitives
  • 01Grounded task reasoning using spatial markers
  • 02Complex topological reasoning in visual environments
  • 03Efficient visual processing with reduced token consumption
Mano-P
  • 01Complex GUI automation for autonomous interface operations
  • 02End-to-end autonomous software construction pipelines
  • 03Private, local-side business process and task execution

// 比較

// 関連トピック