学吧导航_第31页 - 蜀驿圈娱乐网

VibeVoice - 微软研究院开源的文本转语音模型 | 学吧导航

VibeVoice是微软研究院开源的文本转语音模型,专注于生成长篇、富有表现力的多说话人对话音频,例如播客。有效解决了传统TTS系统在可扩展性、说话人一致性和自然对话流方面...

Seedream 4.0 是字节跳动最新推出的图像创作模型,为创作者提供高效、可控的创作体验。模型支持精准指令编辑,用户能用日常语言描述需求,模型能准确完成增删、修改等操作。 ...

Prompt Optimizer 是开源的 AI 提示词优化工具,能帮助用户快速生成高质量的提示词,提升 AI 输出内容的准确性和相关性。 Prompt Optimizer是什么 Prompt Optimizer 是开源...

Wan2.2-S2V 是阿里通义开源的多模态视频生成模型,能用一张静态图片和一段音频生成高质量的数字人视频,视频时长可达分钟级。模型支持多种图片类型和画幅,包括真人、卡通、...

Speech 2.5 是 MiniMax 团队开发的先进语音生成模型。在语音合成领域取得显著进步,尤其在多语种表现力、音色复刻精度和语种覆盖范围上。模型支持 40 种语言,能精准复刻不...

AudioGen-Omni 是中国矿业大学和快手科技联合开发的先进的多模态音频生成模型,基于多模态扩散变换器(MMDit)架构,能根据输入的视频、文本或两者的结合,生成与之高度同步的...

学吧君1K Nano Banana是什么 Nano Banana 是备受瞩目的 AI 图像生成与编辑模型,为谷歌 Gemini 2.5 Flash Image模型代号。能根据简单的文本提示生成细节丰富、光影真实的图...