首页主题Generative AI
// 主题

Generative AI

17近 90 天热度·17历史累计

// 近 4 周新增

// 生态图谱

Computer Vision5Automation4Video Generation4Deep Learning4AI2Generative AI
AI 17

// 近期新项目

查看全部新项目 →

// 本周 TOP 9

01
HBAI-Ltd / Toonflow-app
Toonflow-app 是一款面向短剧生产的 AI 工作台,通过无限画布和三层 Agent 协作体系实现从剧本到视频的全流程自动化。该平台支持章节事件图谱驱动的改编,并提供可编程的供应商系统以灵活接入多种 AI 模型。用户可利用其持久化记忆系统和模块化技能配置,大幅提升短剧创作的效率与一致性。
737,460
02
baidu / ERNIE-Image
ERNIE-Image 是百度开发的一款基于单流扩散 Transformer (DiT) 架构的开源文生图模型。该模型配备轻量级提示词增强器,能够将简短输入转化为结构丰富的描述,并在 8B 参数规模下实现业界领先的生成效果。它特别擅长处理复杂的文本渲染、多对象布局及指令遵循任务,且支持在消费级 GPU 上高效部署。
71412
03
bilibili / Index-anisora
Index-AniSora 是一个专为高质量动漫视频生成和动画制作而设计的强大开源框架。该系统具备全面的数据处理流水线、带有时空掩码的可控生成模型以及专门的评估基准。它支持多种创意任务,包括角色 3D 生成、视频风格迁移以及用于精确运动控制的多模态引导。
682,421
04
ArcReel / ArcReel
ArcReel 是一个开源的 AI 视频生成工作台,通过多智能体架构实现从小说剧本到视频成片的自动化流水线。该平台支持接入 Gemini、火山方舟、Grok 和 OpenAI 等多种供应商,提供角色一致性保持与线索追踪功能。用户可通过可视化界面管理项目、追踪费用并导出剪映草稿,实现高效的 AI 辅助视频创作。
662,045
05
0x0funky / agent-sprite-forge
Agent Sprite Forge 是一款旨在利用 Codex 将自然语言提示词转换为游戏就绪的 2D 精灵图和分层地图的工具。它通过结合 AI 图像生成与确定性的本地后处理技术进行清理和导出,从而实现了资产流水线的自动化。该系统支持多种输出格式,包括动画序列图、透明 GIF、碰撞数据以及复杂的场景布局。
6170
06
microsoft / VibeVoice
VibeVoice 是一系列利用连续语音分词器和下一标记扩散技术来实现高保真音频处理的开源语音 AI 模型。该框架包含用于长文本语音识别和实时流式文本转语音生成的先进工具。这些模型专为研究目的而设计,旨在促进语音合成社区内的协作与创新。
4373
07
Anil-matcha / Open-Generative-AI
Open Generative AI 是一个免费的开源平台,为商业 AI 媒体工具提供了一种无限制的替代方案。它支持超过 200 种用于图像、视频和唇形同步生成的尖端模型,且没有任何内容过滤器或订阅费用。用户可以通过基于 Web 的界面或支持本地及远程推理的桌面应用程序来访问这些功能。
39129
08
hugohe3 / ppt-master
PPT Master 是一款开源工具,可将 PDF、DOCX 文件和 URL 等文档转换为完全可编辑的 PowerPoint 演示文稿。与基于图像的 AI 工具不同,它生成的是原生 DrawingML 形状、文本框和图表,用户可以在 PowerPoint 中直接进行修改。该工作流程与 AI IDE 集成,为创建专业演示文稿提供了一种本地化且注重隐私的解决方案。
3042
09
fspecii / ace-step-ui
ACE-Step UI 为开源的 ACE-Step 1.5 AI 音乐生成模型提供了一个专业且类似 Spotify 的操作界面。它允许用户完全在本地生成高质量的歌曲、纯音乐和歌词,无需支付订阅费用或受云端限制。该平台包含音频编辑、音轨分离和批量处理等高级工具,让创作者能够全面掌控自己的音乐制作过程。
2765

// 历史精选 (17)

HBAI-Ltd / Toonflow-app
Toonflow-app 是一款面向短剧生产的 AI 工作台,通过无限画布和三层 Agent 协作体系实现从剧本到视频的全流程自动化。该平台支持章节事件图谱驱动的改编,并提供可编程的供应商系统以灵活接入多种 AI 模型。用户可利用其持久化记忆系统和模块化技能配置,大幅提升短剧创作的效率与一致性。
73
baidu / ERNIE-Image
ERNIE-Image 是百度开发的一款基于单流扩散 Transformer (DiT) 架构的开源文生图模型。该模型配备轻量级提示词增强器,能够将简短输入转化为结构丰富的描述,并在 8B 参数规模下实现业界领先的生成效果。它特别擅长处理复杂的文本渲染、多对象布局及指令遵循任务,且支持在消费级 GPU 上高效部署。
71
bilibili / Index-anisora
Index-AniSora 是一个专为高质量动漫视频生成和动画制作而设计的强大开源框架。该系统具备全面的数据处理流水线、带有时空掩码的可控生成模型以及专门的评估基准。它支持多种创意任务,包括角色 3D 生成、视频风格迁移以及用于精确运动控制的多模态引导。
68
ArcReel / ArcReel
ArcReel 是一个开源的 AI 视频生成工作台,通过多智能体架构实现从小说剧本到视频成片的自动化流水线。该平台支持接入 Gemini、火山方舟、Grok 和 OpenAI 等多种供应商,提供角色一致性保持与线索追踪功能。用户可通过可视化界面管理项目、追踪费用并导出剪映草稿,实现高效的 AI 辅助视频创作。
66
0x0funky / agent-sprite-forge
Agent Sprite Forge 是一款旨在利用 Codex 将自然语言提示词转换为游戏就绪的 2D 精灵图和分层地图的工具。它通过结合 AI 图像生成与确定性的本地后处理技术进行清理和导出,从而实现了资产流水线的自动化。该系统支持多种输出格式,包括动画序列图、透明 GIF、碰撞数据以及复杂的场景布局。
61
bilibili / Index-anisora
Index-AniSora 是由 Bilibili 开发的一套用于高质量动漫视频生成的综合开源系统。该项目提供了一个可控生成模型、专门的数据处理流水线以及针对动画美学定制的评估基准。它支持角色 3D 视频生成、视频风格迁移和多模态引导等高级功能,以促进多样化的动画制作任务。
61
calesthio / OpenMontage
OpenMontage 是一个开源的智能体系统,它将 AI 编程助手转变为功能全面的视频制作工作室。它实现了整个创作工作流的自动化,涵盖了研究、脚本编写、素材生成、剪辑以及最终合成。该平台支持使用多种免费和付费工具来制作 AI 生成的视觉内容以及真实素材的纪录片蒙太奇。
60
OpenBMB / VoxCPM
VoxCPM2 是一款无需分词器、拥有 2B 参数的语音合成系统,利用扩散自回归架构生成高质量且富有表现力的音频。该模型支持 30 种语言,并提供语音设计、可控语音克隆以及录音室级别的 48kHz 输出等高级功能。它在 Apache-2.0 许可下完全开源,并通过 vLLM-Omni 和 Nano-vLLM 提供生产就绪的部署选项。
56
jd-opensource / JoyAI-Image
JoyAI-Image 是一个统一的多模态基础模型,它集成了 8B Multimodal Large Language Model 和 16B Multimodal Diffusion Transformer,以支持图像理解、生成和编辑。该模型利用理解与生成之间的闭环协作,增强了空间推理和可控编辑能力。它提供了一个可扩展的训练流水线,并支持多视图生成和精确空间操作等高级功能。
52
PenglongHuang / chinese-novelist-skill
Chinese-novelist 是一个专为 Claude Code 设计的技能插件,旨在帮助用户通过简单的交互完成中文小说的全流程创作。用户只需回答五个核心问题,AI 即可自动生成详细的大纲、人物档案及连贯的章节内容。该工具内置了专业的创作法则与质量检查清单,能够确保小说情节的连贯性与吸引力。
49
PenglongHuang / chinese-novelist-skill
Chinese-novelist 是一款专为 Claude Code 设计的技能插件,旨在帮助用户通过回答五个核心问题快速生成完整的小说大纲与人物档案。该工具通过自动化的章节追踪与连贯性管理,确保创作过程逻辑严密且情节引人入胜。用户确认规划后,AI 将进入自动创作模式,高效完成整部小说的初稿撰写。
46
microsoft / VibeVoice
VibeVoice 是一系列利用连续语音分词器和下一标记扩散技术来实现高保真音频处理的开源语音 AI 模型。该框架包含用于长文本语音识别和实时流式文本转语音生成的先进工具。这些模型专为研究目的而设计,旨在促进语音合成社区内的协作与创新。
43
mnfst / awesome-free-llm-apis
此仓库提供了一份精选的 LLM API 提供商列表,这些服务为文本推理提供永久免费层级。它将服务分类为直接提供商 API 和第三方推理平台,并详细说明了模型能力、上下文窗口和速率限制。该集合为寻求以经济高效方式访问各种大语言模型的开发者提供了全面的资源。
43
google-ai-edge / gallery
Google AI Edge Gallery 是一款旨在直接在您的设备上运行强大的开源 Large Language Models 的移动应用程序。它为用户提供了一个完全离线且私密的环境,以体验先进的生成式 AI 功能,包括最新的 Gemma 4 系列。该应用程序提供了一套全面的工具,用于模型管理、基准测试和交互式 AI 功能。
41
Anil-matcha / Open-Generative-AI
Open Generative AI 是一个免费的开源平台,为商业 AI 媒体工具提供了一种无限制的替代方案。它支持超过 200 种用于图像、视频和唇形同步生成的尖端模型,且没有任何内容过滤器或订阅费用。用户可以通过基于 Web 的界面或支持本地及远程推理的桌面应用程序来访问这些功能。
39
hugohe3 / ppt-master
PPT Master 是一款开源工具,可将 PDF、DOCX 文件和 URL 等文档转换为完全可编辑的 PowerPoint 演示文稿。与基于图像的 AI 工具不同,它生成的是原生 DrawingML 形状、文本框和图表,用户可以在 PowerPoint 中直接进行修改。该工作流程与 AI IDE 集成,为创建专业演示文稿提供了一种本地化且注重隐私的解决方案。
30
fspecii / ace-step-ui
ACE-Step UI 为开源的 ACE-Step 1.5 AI 音乐生成模型提供了一个专业且类似 Spotify 的操作界面。它允许用户完全在本地生成高质量的歌曲、纯音乐和歌词,无需支付订阅费用或受云端限制。该平台包含音频编辑、音轨分离和批量处理等高级工具,让创作者能够全面掌控自己的音乐制作过程。
27

// 项目使用场景

Toonflow-app
  • 01小说影视化改编与剧本开发
  • 02短视频内容创作与素材生成
  • 03AI 驱动的自动化分镜与视频制作
ERNIE-Image
  • 01高质量海报与信息图表生成
  • 02复杂指令下的多对象与布局控制
  • 03多风格图像创作与快速推理加速
Index-anisora
  • 01基于正面插图的角色 3D 视频生成
  • 02用于动漫制作的视频风格迁移和帧插值
  • 03用于精确控制视频运动和美学的多模态引导
ArcReel
  • 01基于 Claude Agent SDK 的多智能体自动化视频生成工作流
  • 02支持多供应商的图像与视频生成,并具备角色一致性与线索追踪能力
  • 03内置可视化工作台,支持项目管理、费用追踪及剪映草稿一键导出
agent-sprite-forge
  • 01生成角色动画和法术特效的精灵图表
  • 02创建带有碰撞数据和透明道具的分层 RPG 地图
  • 03构建集成资产的端到端可玩游戏场景

// 相关主题