ホーム › トピック › Computer Vision

// トピック

Computer Vision

16直近 90 日のトレンド·16累計

// 今月の新着

// エコシステム

AI 16

// 最近の新着

すべての新着 →

#1Thinking with Visual Primitives: Grounded Structural Reasoning🆕 2 日前↗ 127.35/d★ 213 #2Mano-P: GUI-Aware Private AI Agent for Edge Devices🆕 1 か月前↗ 99.23/d★ 1,264 #3Xiaomi Miloco Local Smart Home Copilot🆕 6 か月前↗ 68.06/d★ 2,549 #4ERNIE-Image: High-Performance Open-Source Text-to-Image Diffusion Model🆕 18 日前↗ 53.67/d★ 412

// 今週の TOP 8

deepseek-ai / Thinking-with-Visual-Primitives

Thinking with Visual Primitives は、空間マーカーを推論プロセスに直接組み込むことで、Multimodal Large Language Models に対する新しいアプローチを導入します。この手法は、抽象的な言語を具体的な物理座標に固定することで、複雑な構造タスクにおける参照のギャップを解消します。本フレームワークは、圧縮されたアーキテクチャを通じて高い visual token 効率を維持しながら、最先端の性能を実現します。

Mininglamp-AI / Mano-P

Mano-P は Mac mini や MacBook などのエッジデバイス上で自律的かつプライベートなタスク実行を実現するために設計された GUI-VLA エージェントプロジェクトです。高度な強化学習とエッジネイティブな推論を活用し、複雑な GUI 自動化、システム横断的なデータ統合、および長期的なタスク計画を実行します。本プロジェクトはクラウド API 呼び出しを不要にしつつ、様々なベンチマークで高いパフォーマンスを維持するセキュアなローカルファーストのソリューションを提供します。

XiaoMi / xiaomi-miloco

Xiaomi Miloco は、オンデバイスの LLM を活用して IoT デバイスを統合および制御するオープンソースのスマートホームソリューションです。カメラのデータストリームを活用することで、複雑なホームオートメーションやイベント分析のための自然言語対話を実現します。視覚的な理解やタスク計画をユーザーのハードウェア上でローカルに実行し、ユーザーのプライバシーを最優先します。

baidu / ERNIE-Image

ERNIE-Image は Baidu が開発した Diffusion Transformer (DiT) アーキテクチャに基づくオープンソースの text-to-image モデルです。このモデルは短い入力を構造化された詳細な記述に変換する軽量な prompt enhancer を備えており、8B パラメータ規模で業界最高水準の生成結果を実現します。複雑なテキストレンダリングやマルチオブジェクトのレイアウト、指示追従タスクに優れており、コンシューマー向け GPU での効率的なデプロイをサポートします。

bilibili / Index-anisora

Index-AniSora は、高品質なアニメ動画生成とアニメーション制作のために設計された強力なオープンソースフレームワークです。このシステムは、包括的なデータ処理パイプライン、時空間マスキングを備えた制御可能な生成モデル、および専門的な評価ベンチマークを特徴としています。キャラクターの 3D 生成、動画のスタイル変換、正確なモーション制御のためのマルチモーダルガイダンスなど、多様なクリエイティブタスクをサポートします。

Cua は、コンピューターのインターフェースを操作可能な自律型エージェントを構築、ベンチマーク、およびデプロイするための統合エコシステムを提供します。このプラットフォームには、macOS のバックグラウンド自動化、クロスプラットフォームのサンドボックス化、および高性能な仮想化のための専用ツールが含まれています。開発者はこれらのコンポーネントを活用して、タスクの実行、コードの実行、および複雑な GUI 環境のシームレスな操作を行うエージェントを作成できます。

nikopueringer / CorridorKey

CorridorKey は、グリーンバックやブルーバックから被写体を分離する複雑な課題を解決するために設計されたニューラルネットワークベースのツールです。各ピクセルの真のストレートカラーとリニアアルファチャンネルを再構築し、髪の毛やモーションブラーなどの微細なディテールを効果的に保持します。本プロジェクトは、業界標準のコンポジットソフトウェアと互換性のある 16-bit および 32-bit のリニア float EXR ファイルを出力することで、高精度な VFX ワークフローをサポートします。

Anil-matcha / Open-Generative-AI

Open Generative AI は、商用 AI メディアツールの制限のない代替手段を提供する無料のオープンソースプラットフォームです。コンテンツフィルターやサブスクリプション料金なしで、画像、動画、リップシンク生成のための 200 以上の最先端モデルをサポートしています。ユーザーは、ローカルおよびリモートの推論をサポートする Web ベースのインターフェースまたはデスクトップアプリケーションを通じて、これらの機能にアクセスできます。

// 累計の注目 (16)

PaddlePaddle / PaddleOCR

PaddleOCR は、画像や PDF ドキュメントを Markdown や JSON といった LLM 向けの構造化データ形式に変換するために設計された包括的なツールキットです。最先端の vision-language models と 100 以上の言語をサポートする高性能な text recognition engines を備えています。主要な AI agent や RAG frameworks に広く統合されており、多様な hardware backends 全体で効率的な deployment が可能です。

ncnn はモバイルプラットフォーム向けに最適化された高性能なニューラルネットワーク推論フレームワークであり、モバイルデバイス上でのディープラーニングアルゴリズムのデプロイを簡素化します。サードパーティの依存関係がなくクロスプラットフォームに対応しており、モバイル CPU 上での実行速度は既存のオープンソースフレームワークを凌駕します。現在、ncnn は Tencent の様々な主要アプリケーションで広く利用されており、開発者がインテリジェントなアプリケーションを容易に構築できるよう支援しています。

ncnn は、モバイルプラットフォーム向けに深く最適化された高性能なニューラルネットワーク推論フレームワークです。サードパーティの依存関係がなく、クロスプラットフォーム対応を特徴としており、モバイル CPU 上で既存のオープンソースフレームワークを凌駕する性能を発揮します。開発者は ncnn を使用してディープラーニングモデルをモバイルデバイスへ容易に移植し、多様なインテリジェントアプリケーションを構築可能です。

deepseek-ai / Thinking-with-Visual-Primitives

Thinking with Visual Primitives は、空間マーカーを推論プロセスに直接組み込むことで、Multimodal Large Language Models に対する新しいアプローチを導入します。この手法は、抽象的な言語を具体的な物理座標に固定することで、複雑な構造タスクにおける参照のギャップを解消します。本フレームワークは、圧縮されたアーキテクチャを通じて高い visual token 効率を維持しながら、最先端の性能を実現します。

Mininglamp-AI / Mano-P

Mano-P は Mac mini や MacBook などのエッジデバイス上で自律的かつプライベートなタスク実行を実現するために設計された GUI-VLA エージェントプロジェクトです。高度な強化学習とエッジネイティブな推論を活用し、複雑な GUI 自動化、システム横断的なデータ統合、および長期的なタスク計画を実行します。本プロジェクトはクラウド API 呼び出しを不要にしつつ、様々なベンチマークで高いパフォーマンスを維持するセキュアなローカルファーストのソリューションを提供します。

MNN は、モバイルや組み込みデバイスでの効率的なモデル推論と学習のために設計された、高性能かつ軽量なディープラーニングフレームワークです。幅広いニューラルネットワークアーキテクチャをサポートし、モデルの変換、圧縮、汎用計算のための多機能なツールを提供します。このフレームワークは、デバイスとクラウドが連携する機械学習を実現するために、Alibaba の様々なアプリケーションを含む本番環境で広く利用されています。

XiaoMi / xiaomi-miloco

Xiaomi Miloco は、オンデバイスの LLM を活用して IoT デバイスを統合および制御するオープンソースのスマートホームソリューションです。カメラのデータストリームを活用することで、複雑なホームオートメーションやイベント分析のための自然言語対話を実現します。視覚的な理解やタスク計画をユーザーのハードウェア上でローカルに実行し、ユーザーのプライバシーを最優先します。

PaddlePaddle / PaddleX

PaddleX 3.0 は PaddlePaddle フレームワークを基盤としたローコード開発ツールであり、豊富な事前学習済みモデルを統合してフルプロセスの開発をサポートします。最小限の Python API とグラフィカルインターフェースを通じて、モデルのトレーニングから推論デプロイメントまでの迅速な実装を実現します。さらに、国内外の主要なハードウェアと幅広く互換性があり、開発者が効率的に産業用アプリケーションを構築できるよう支援します。

baidu / ERNIE-Image

ERNIE-Image は Baidu が開発した Diffusion Transformer (DiT) アーキテクチャに基づくオープンソースの text-to-image モデルです。このモデルは短い入力を構造化された詳細な記述に変換する軽量な prompt enhancer を備えており、8B パラメータ規模で業界最高水準の生成結果を実現します。複雑なテキストレンダリングやマルチオブジェクトのレイアウト、指示追従タスクに優れており、コンシューマー向け GPU での効率的なデプロイをサポートします。

bilibili / Index-anisora

Index-AniSora は、高品質なアニメ動画生成とアニメーション制作のために設計された強力なオープンソースフレームワークです。このシステムは、包括的なデータ処理パイプライン、時空間マスキングを備えた制御可能な生成モデル、および専門的な評価ベンチマークを特徴としています。キャラクターの 3D 生成、動画のスタイル変換、正確なモーション制御のためのマルチモーダルガイダンスなど、多様なクリエイティブタスクをサポートします。

bilibili / Index-anisora

Index-AniSora は Bilibili が開発した高品質なアニメ動画生成のための包括的なオープンソースシステムです。本プロジェクトは制御可能な生成モデル、専門的なデータ処理パイプライン、およびアニメーションの美学に最適化された評価ベンチマークを提供します。キャラクターの 3D 動画生成、動画スタイル変換、マルチモーダルガイダンスといった高度な機能をサポートし、多様なアニメーション制作タスクを促進します。

XiaoMi / xiaomi-miloco

Xiaomi Miloco は Xiaomi Home カメラと独自開発の LLM を統合し IoT デバイスを制御するオープンソースの探索ソリューションです。オンデバイスモデルを活用して視覚データを処理し、ユーザーのプライバシーとセキュリティを確保しながらシーンを理解します。ユーザーは複雑なホームルールを定義し、自然言語を使用してスマートエコシステムと対話できます。

Cua は、コンピューターのインターフェースを操作可能な自律型エージェントを構築、ベンチマーク、およびデプロイするための統合エコシステムを提供します。このプラットフォームには、macOS のバックグラウンド自動化、クロスプラットフォームのサンドボックス化、および高性能な仮想化のための専用ツールが含まれています。開発者はこれらのコンポーネントを活用して、タスクの実行、コードの実行、および複雑な GUI 環境のシームレスな操作を行うエージェントを作成できます。

jd-opensource / JoyAI-Image

JoyAI-Image は 8B Multimodal Large Language Model と 16B Multimodal Diffusion Transformer を統合し、画像の理解・生成・編集をサポートする統一マルチモーダル基盤モデルです。本モデルは理解と生成のクローズドループな連携を活用し、空間推論能力と制御可能な編集機能を強化しています。スケーラブルな学習パイプラインを提供し、マルチビュー生成や精密な空間操作といった高度な機能をサポートします。

nikopueringer / CorridorKey

CorridorKey は、グリーンバックやブルーバックから被写体を分離する複雑な課題を解決するために設計されたニューラルネットワークベースのツールです。各ピクセルの真のストレートカラーとリニアアルファチャンネルを再構築し、髪の毛やモーションブラーなどの微細なディテールを効果的に保持します。本プロジェクトは、業界標準のコンポジットソフトウェアと互換性のある 16-bit および 32-bit のリニア float EXR ファイルを出力することで、高精度な VFX ワークフローをサポートします。

Anil-matcha / Open-Generative-AI

Open Generative AI は、商用 AI メディアツールの制限のない代替手段を提供する無料のオープンソースプラットフォームです。コンテンツフィルターやサブスクリプション料金なしで、画像、動画、リップシンク生成のための 200 以上の最先端モデルをサポートしています。ユーザーは、ローカルおよびリモートの推論をサポートする Web ベースのインターフェースまたはデスクトップアプリケーションを通じて、これらの機能にアクセスできます。

// プロジェクト別ユースケース

01Intelligent document parsing for LLM-ready structured data extraction
02Universal multilingual text recognition for natural scene and document analysis
03Building high-quality datasets for fine-tuning Large Language Models

01Supports a variety of mainstream CNN models, including classification, detection, segmentation, and face recognition algorithms.
02Provides cross-platform deployment capabilities, supporting environments such as Android, iOS, Windows, Linux, macOS, and WebAssembly.
03Helps developers port deep learning algorithms to mobile devices through efficient implementation, enabling the rapid deployment of artificial intelligence applications.

01Efficiently deploy deep learning algorithm models on mobile devices
02Support mainstream CNN networks such as YOLO, MobileNet, and ResNet
03Achieve high-performance cross-platform neural network inference computation

Thinking-with-Visual-Primitives

01Grounded task reasoning using spatial markers
02Complex topological reasoning in visual environments
03Efficient visual processing with reduced token consumption

01Complex GUI automation for autonomous interface operations
02End-to-end autonomous software construction pipelines
03Private, local-side business process and task execution

// 比較

PaddleOCR vs FlashMLA ncnn vs ncnn ncnn vs MNN FastDeploy vs ncnn

// 関連トピック

Deep Learning (7)LLM (6)Generative AI (5)Machine Learning (3)Video Generation (3)