Skywork UniPic 2.0 - 昆仑万维开源的多模态融合模型 | 学吧导航 学吧君687 Skywork UniPic 2.0是什么 Skywork UniPic 2.0 是昆仑万维开源的高效多模态模型,专注于图像生成、编辑与理解。模型基于 2B 参数的 SD3.5-Medium 架构,通过大规模...
MiniCPM 4.1 - 面壁智能推出的端侧大模型 | 学吧导航 学吧君583 MiniCPM 4.1是什么 MiniCPM 4.1 是面壁智能推出的专为端侧设备优化的高效大语言模型。具备卓越的推理性能,能在智能手机、平板电脑等设备上快速响应用户请求,推理...
XTuner V1 - 上海人工智能实验室开源的大模型训练引擎 | 学吧导航 学吧君442 XTuner V1是什么 XTuner V1 是上海人工智能实验室开源的新一代大模型训练引擎,专为超大规模稀疏混合专家(MoE)模型训练设计。基于 PyTorch FSDP 开发,通过显存、...
RynnEC - 阿里达摩院推出的多模态交互世界理解模型 | 学吧导航 对于机器人在物理世界中的导航和操作至关重要,例如在家庭服务机器人和工业自动化场景中。.无需额外的3D模型。用时间序列信息和空间关系建模技术,能实时理解物体在空间中的...
OneCAT - 上海交大联合美团推出的新型多模态模型 | 学吧导航 学吧君536 OneCAT是什么 OneCAT是美团推出的新型统一多模态模型,采用纯解码器架构,能无缝集成多模态理解、文本到图像生成和图像编辑功能。在处理高分辨率图像输入和输出时...
Qwen-Image - 通义千问开源的图像生成基础模型 | 学吧导航 学吧君1.1K Qwen-Image是什么 Qwen-Image 是阿里巴巴通义千问团队发布的开源图像生成基础模型,拥有200亿参数,基于Apache 2.0协议开源。采用MMDiT多模态扩散变换器架构,专为...
EchoMimicV3 - 蚂蚁技术开源的多模态数字人生成系统 | 学吧导航 学吧君476 EchoMimicV3是什么 EchoMimicV3 是蚂蚁集团支付宝终端技术部推出的多模态人类动画生成系统。基于紧凑型视频扩散模型(CVDM),通过创新的 任务融合 和 模态融合 设...