ホームトレンドfarzaa/clicky
// archived 2026-04-11
farzaa

clicky

AI#Swift#macOS#Cloudflare Workers#Anthropic#ScreenCaptureKit
GitHub で見る →
132

// 概要

Clicky は macOS 環境に直接統合され、リアルタイムのガイダンスを提供するオープンソースの AI 教育アシスタントです。このアプリケーションは画面録画、音声対話、カーソル制御を活用し、デスクトップを認識して操作できる仮想チューターとして機能します。ユーザーは Cloudflare Worker プロキシを設定し、Xcode を介して Swift ベースのアプリケーションをビルドすることで、ローカル環境にデプロイ可能です。

// 技術解説

Clicky は macOS のメニューバーアプリケーションとして設計された AI 搭載の学習コンパニオンであり、リアルタイムで画面を認識したサポートを提供します。画面キャプチャ、音声文字起こし、および text-to-speech を統合することで、AI がカーソルを操作して視覚的にユーザーをガイドするインタラクティブな体験を実現します。アーキテクチャには安全な Cloudflare Worker プロキシを採用し、機密性の高い API keys を管理することで、アプリケーションバイナリ内に直接埋め込まれないようにしています。この設計はユーザーのプライバシーとモジュール性を優先しており、開発者は定義された Swift ベースのステートマシンを通じてエージェントの機能を拡張できます。

// 主要ハイライト

01
視覚データをキャプチャしてリアルタイムで画面を認識し、AI がユーザーの現在のワークスペースを理解して対話できるようにします。
02
カーソルオーバーレイシステムを搭載し、座標ベースのコマンドを使用して複数のモニターにまたがる特定の UI 要素を AI が指し示せるようにします。
03
Cloudflare Workers を介した安全なプロキシアーキテクチャを実装し、機密性の高い API keys がクライアント側のアプリケーションで露出するのを防ぎます。
04
プッシュ・ツー・トーク方式の音声インターフェースをサポートし、音声を AssemblyAI にストリーミングして文字起こしを行い、ElevenLabs を使用して自然な text-to-speech レスポンスを生成します。
05
メニューバーベースのインターフェースと透過的なオーバーレイウィンドウを採用し、AI がアクティブな間も邪魔にならない存在感を維持します。
06
Swift による中央集権的なステートマシンを組み込み、文字起こし、LLM の推論、および音声合成の間の複雑な相互作用を調整します。

// ユースケース

01
リアルタイムの画面分析とインタラクティブなガイダンス
02
Push-to-talk を使用した AI チューターとの音声ベースのコミュニケーション
03
特定の UI 要素を強調するための自動カーソル移動

// クイックスタート

開始するには、Claude Code を使用してリポジトリを自動的にクローンし、CLAUDE.md に記載されているガイド付きセットアップ手順に従ってください。または、提供された Cloudflare Worker を API keys と共にデプロイし、Swift ソースコード内のプロキシ URL を更新した上で、macOS 上の Xcode 15+ を使用してプロジェクトをビルドする手動セットアップを行ってください。