一、MOVA是什么
MOVA全称为MOSS Video and Audio,是上海创智学院联合模思智能、OpenMOSS团队打造的开源高保真音视频同步生成基础模型型,,核心解决传统开源视频生成“有画无声、音画不同步”的行业痛点,摒弃级联式生成流水线,实现视频与音频单次推理原生同步输出。模型采用非对称双塔架构与双向交叉注意力融合机制,具备多语言精准唇形对齐、场景化环境音效生成、人物对话语音还原等能力,提供360p与720p两种预训练版本。
MOVA从底层架构设计上重构生成逻辑,以原生双模态同步生成为核心,将视频帧与音频波形纳入统一生成流程,无需后期音画对齐处理,从根源解决同步误差。模型面向文本到音视频(Text-to-Video-Audio,TI2VA)、图像到音视频(Image-to-Video-Audio)两大核心任务,支持最长8秒、最高720p分辨率的视听片段生成,兼顾视觉画质与音频保真度,同时实现全链路开源,覆盖模型权重、推理代码、训练配置、LoRA微调脚本等全部核心资源,降低技术使用与二次研发门槛,是当前开源生态中少数具备电影级音画同步效果的基础模型。
该项目基于Wan2.2、HunyuanVideo-Foley等优秀开源项目优化演进,采用32B MoE稀疏架构,实际激活参数约18B,在兼顾生成质量的同时优化算力消耗,支持消费级与企业级硬件部署,适配深度学习开发者、影视创作者、教育从业者、AI研究人员等多类用户群体。
二、功能特色
(一)原生双模态同步生成,根除级联误差
区别于传统“视频生成+音频后处理”的拆分流程,MOVA实现单轮推理同步输出视频与音频,无需多阶段模型衔接,彻底消除时序偏移、唇形不匹配、音效滞后等级联生成的固有缺陷,生成内容的音画一致性达到工业可用标准。
(二)多语言高精度唇形同步
针对人物对话场景,模型在多语言唇形同步任务上实现领先性能,基于Verse-Bench基准测试,MOVA-720p的唇形同步误差(LSE-D、LSE-C)与语音识别准确率(cpCER)均优于同类开源模型,可精准匹配中文、英文等多语种发音的唇部动作,适配数字人播报、影视配音、虚拟访谈等场景。
(三)全场景音效智能生成
模型可识别画面中的场景、动作、物体信息,自动生成匹配的环境音、动作音效、氛围音乐,例如自然场景的海浪/篝火声、交通工具的马达声、人物动作的脚步声等,音效与画面视觉元素高度契合,提升内容沉浸感。
(四)全栈开源无壁垒
在Sora 2、Veo 3等顶尖音视频模型闭源的行业背景下,MOVA完整开放模型权重、推理代码、训练流水线、LoRA微调脚本、配置文件,支持研究与商用场景的二次开发、定制化微调,无隐藏功能与付费限制,推动开源音视频生成技术的生态共建。
(五)多硬件兼容与低资源适配
原生支持NVIDIA RTX 4090、H100等GPU,同时适配昇腾NPU硬件,提供多种显存卸载策略,可根据硬件配置调整资源占用,兼顾高端算力与中低端设备的部署需求,降低使用门槛。
(六)灵活的LoRA微调能力
提供低资源单卡微调、加速微调、FSDP多卡微调三种模式,支持用户基于自定义数据集做风格化、人物专属、场景专属微调,快速生成符合特定需求的定制化音视频内容,拓展模型适用边界。

三、技术细节
(一)核心架构:非对称双塔融合架构
MOVA采用非对称视频塔+音频塔的双骨干架构,分别复用预训练的视频生成模型与音频生成模型权重,通过双向交叉注意力机制实现双模态信息交互。视频塔负责视觉特征提取与帧序列生成,音频塔负责音频波形特征建模与声音合成,双向注意力模块实时传递画面时序、语义、空间信息与音频频率、节奏信息,实现音画特征的深度对齐。
(二)模型规模与稀疏激活设计
模型采用32B MoE(混合专家)稀疏架构,推理时仅激活18B参数,在保证生成质量与模型容量的同时,减少算力与显存消耗,提升推理速度,平衡性能与部署成本。
(三)生成范式与核心任务
核心支持TI2VA(文本到音视频) 任务,用户输入文本提示词(包含画面描述、语音内容、场景音效要求)与参考图像,模型即可生成连续视频帧与同步音频;同时支持基于参考图像的人物肖像锁定,保证生成视频中人物样貌的一致性。
(四)性能优化策略
提供组件级显存卸载、层组级精细化卸载两种策略,可根据硬件配置降低显存占用,例如在RTX 4090上通过层组卸载可将显存占用降至12GB,适配中低端显卡部署;同时支持SGLang集成,优化大批次推理效率。
(五)训练与微调机制
基于大规模音视频对齐数据集训练,支持LoRA低秩适配微调,用户可通过修改配置文件调整微调参数,无需全参数训练,大幅降低微调的算力与数据成本,三种微调模式可适配单卡消费级设备与多卡集群环境。
(六)模型版本与参数规格
MOVA提供两种官方预训练版本,具体规格如下表:
模型版本分辨率核心任务适用场景下载渠道MOVA-360p360pTI2VA文本/图像到音视频测试体验、低资源设备、快速原型开发Hugging FaceMOVA-720p720pTI2VA文本/图像到音视频正式内容创作、商用落地、高精度唇形同步Hugging Face(七)推理性能基准
以8秒360p视频生成为测试标准,不同卸载策略的硬件性能表现如下:
组件级卸载在RTX 4090显卡上显存占用48GB,单步耗时37.5秒;在H100显卡上单步耗时降至9.0秒。层组级卸载可进一步将RTX 4090显存占用压缩至12GB,单步耗时42.3秒,H100显卡上单步耗时22.8秒,用户可根据硬件条件与时间需求选择适配策略。
四、应用场景
(一)影视与短视频创作
用于生成电影级短片、剧情片段、创意短视频,自动完成画面、人物对话、环境音效的同步制作,缩短影视后期制作周期,降低独立创作者的设备与人力成本。
(二)数字人与虚拟播报
生成虚拟主播、数字人讲解视频,精准匹配多语种唇形与语音,适用于新闻播报、知识科普、企业宣传等场景,实现24小时无人值守内容产出。
(三)教育与培训内容生产
制作课程讲解、技能演示、情景化教学视频,同步生成教师语音、操作音效与画面演示,打造沉浸式教学素材,适配线上教育、职业培训等场景。
(四)广告与营销素材制作
快速生成产品宣传视频、品牌短片,根据文案自动生成画面、配音与背景音效,满足短视频平台、社交媒体的高频素材需求,提升营销内容生产效率。
(五)AI研究与技术开发
作为音视频多模态生成的研究底座,供科研人员测试新算法、优化同步机制、探索生成模型架构;开发者可基于开源代码二次开发,搭建定制化音视频生成工具、集成到现有产品中。
(六)娱乐与创意内容创作
生成动漫片段、游戏剧情演示、个人创意Vlog等内容,支持自定义风格与音效,为普通用户提供低门槛的AI创作工具。
五、使用方法
(一)环境搭建
创建独立Conda环境,指定Python 3.13版本:conda create -n mova python=3.13 -y
激活环境:conda activate mova
安装项目依赖:pip install -e .
如需训练与微调,额外安装训练依赖:pip install -e ".[train]"
(二)模型下载
通过Hugging Face官方仓库下载预训练权重,使用hf下载工具执行命令:
360p版本:hf download OpenMOSS-Team/MOVA-360p --local-dir /本地存储路径
720p版本:hf download OpenMOSS-Team/MOVA-720p --local-dir /本地存储路径
(三)单人语音视频推理
设置环境变量,指定并行数与模型路径:export CP_SIZE=1、export CKPT_PATH=/模型权重路径
执行推理命令,填入提示词、参考图路径、输出路径等参数,通过torchrun启动脚本,支持调整分辨率、随机种子、显存卸载模式等参数。
(四)多人交互视频推理
复用单人推理脚本,更换参考图像与包含多人对话的文本提示词,其余参数配置保持一致,即可生成多人物对话、动作交互的音视频内容,模型自动适配多说话人唇形与语音切换。
(五)LoRA微调
准备自定义音视频对齐数据集,配置数据路径与预处理参数
选择微调配置文件(低资源单卡、加速单卡、8卡FSDP)
执行对应训练脚本,调整LoRA秩、alpha值、优化器参数,完成定制化微调
微调后权重替换原权重路径,按推理流程生成定制化内容
(六)NPU部署
昇腾NPU用户可参考项目专属文档,配置NPU环境与推理/训练参数,实现国产化硬件的兼容运行。
六、常见问题解答
MOVA支持的最大视频时长和分辨率是多少
官方预训练模型支持最长8秒的视频生成,提供360p和720p两种分辨率,更高分辨率与更长时长的支持在项目规划中,当前版本不建议手动修改参数超出官方规格,易导致生成失败或质量下降。
部署MOVA最低需要什么硬件配置
推理最低推荐RTX 4090显卡,通过层组级显存卸载可将显存占用降至12GB;消费级中低端显卡可运行360p版本,但推理速度会显著变慢。训练微调建议使用H100等高端显卡,或降低分辨率至240p减少资源消耗。
生成内容出现唇形不同步、音效错位怎么办
优先使用720p版本模型,该版本唇形同步精度更高;检查文本提示词是否清晰描述语音内容与画面动作,避免模糊表述;关闭不必要的显存卸载策略,保证模型推理稳定性;使用官方推荐的随机种子与推理步数。
MOVA是否支持商用,有无授权限制
项目遵循开源许可证协议,模型权重与代码均开放商用与研究使用,用户可直接用于商业项目、二次开发产品,无需额外授权,具体条款可参考项目根目录的LICENSE文件。
如何解决模型加载时的显存不足问题
启用--offload cpu组件级卸载或--offload group层组级卸载参数,将部分模型组件加载至内存,降低显存占用;选择360p低分辨率模型;减少视频帧数量与分辨率;使用量化版本权重(后续更新支持)。
能否微调生成特定人物、特定风格的内容
可以通过LoRA微调实现,准备包含目标人物、风格的音视频对齐数据集,使用项目提供的低资源微调脚本,单张RTX 4090即可完成小规模微调,快速锁定人物样貌、语音风格与画面色调。
生成的音频支持什么格式,能否单独导出
模型默认输出MP4封装的音视频合并文件,音频采用标准AAC编码;用户可通过FFmpeg工具分离视频与音频轨道,提取纯音频文件。
七、相关链接
GitHub项目仓库:https://github.com/OpenMOSS/MOVA
MOVA-360p模型Hugging Face地址:https://huggingface.co/OpenMOSS-Team/MOVA-360p
MOVA-720p模型Hugging Face地址:https://huggingface.co/OpenMOSS-Team/MOVA-720p
八、总结
MOVA作为OpenMOSS团队推出的全开源音视频同步生成基础模型,以原生双模态同步生成技术解决了开源视频生成的音画错位、无同步音频的核心痛点,凭借非对称双塔架构、稀疏MoE设计、高精度唇形同步与全场景音效生成能力,实现了电影级的视听生成效果,同时通过全栈开源、多硬件兼容、低资源LoRA微调等设计,大幅降低了AI音视频生成技术的使用与研发门槛,既可为影视、教育、广告等行业提供高效的内容生产工具,也能为AI多模态研究与开发者生态提供开放的技术底座,是当前开源音视频生成领域兼具实用性、创新性与开放性的标杆项目。
版权及免责申明:本文由@97ai原创发布。该文章观点仅代表作者本人,不代表本站立场。本站不承担任何相关法律责任。
如若转载,请注明出处:https://www.aipuzi.cn/ai-news/mova.html
THE END
