VibeVoice - 微软研究院开源的文本转语音模型 | 学吧导航 VibeVoice是微软研究院开源的文本转语音模型,专注于生成长篇、富有表现力的多说话人对话音频,例如播客。有效解决了传统TTS系统在可扩展性、说话人一致性和自然对话流方面...
Seedream 4.0 - 字节最新推出的AI生图模型 | 学吧导航 Seedream 4.0 是字节跳动最新推出的图像创作模型,为创作者提供高效、可控的创作体验。模型支持精准指令编辑,用户能用日常语言描述需求,模型能准确完成增删、修改等操作。 ...
Prompt Optimizer - 免费开源的AI提示词优化工具 | 学吧导航 Prompt Optimizer 是开源的 AI 提示词优化工具,能帮助用户快速生成高质量的提示词,提升 AI 输出内容的准确性和相关性。 Prompt Optimizer是什么 Prompt Optimizer 是开源...
Wan2.2-S2V - 阿里开源的电影级视频生成模型 | 学吧导航 Wan2.2-S2V 是阿里通义开源的多模态视频生成模型,能用一张静态图片和一段音频生成高质量的数字人视频,视频时长可达分钟级。模型支持多种图片类型和画幅,包括真人、卡通、...
Speech 2.5 - MiniMax稀宇科技推出的新语音生成模型 | 学吧导航 Speech 2.5 是 MiniMax 团队开发的先进语音生成模型。在语音合成领域取得显著进步,尤其在多语种表现力、音色复刻精度和语种覆盖范围上。模型支持 40 种语言,能精准复刻不...
AudioGen-Omni - 中矿联合快手推出的多模态音频生成模型 | 学吧导航 AudioGen-Omni 是中国矿业大学和快手科技联合开发的先进的多模态音频生成模型,基于多模态扩散变换器(MMDit)架构,能根据输入的视频、文本或两者的结合,生成与之高度同步的...
Nano Banana - AI图像编辑模型,编辑后的图像高度真实 | 学吧导航 学吧君1K Nano Banana是什么 Nano Banana 是备受瞩目的 AI 图像生成与编辑模型,为谷歌 Gemini 2.5 Flash Image模型代号。能根据简单的文本提示生成细节丰富、光影真实的图...