京东视频模型!JoyAI-Echo解决长视频生成失忆问题

发布时间:2026/6/8 23:26:15
京东视频模型!JoyAI-Echo解决长视频生成失忆问题
视频生成最让人头疼的是分钟级的连续叙事角色不像声音对不上越往后画面越离谱越长生成速度越慢。京东 Joy Future Academy 牵头联合北大、清华、中科大等多所高校推出了 JoyAI-Echo 框架。该研究把跨模态一致性、实时推理、对话式交互、高分辨率输出这四件事做好。这是视频生成领域第一次在分钟级长视频上同时做到又长又快又清还能对话改稿。JoyAI-Echo 用一个跨模态音视觉记忆库解决了失忆用一套后训练管线解决了又慢又糙用一个 Director Agent导演代理解决了不会用用一个轻量超分模块解决了不够清。四个组件各司其职串联起来就是一条从创作意图到高分辨率成片的完整链路。记忆让长视频不再失忆做长视频最怕什么角色在第一个镜头里穿蓝衬衫、声音低沉磁性到了第十个镜头突然换了张脸、声线也变了。这类失忆在多步自回归生成里几乎是宿命级的难题因为模型一边生成新内容一边就忘了之前长什么样。JoyAI-Echo 的解法是建一个跨模态音视觉记忆库Cross-Modal Audio-Visual Memory Bank。生成每个新镜头时让模型回头翻一翻“相册”和“录音笔”看看角色之前长什么样、说话什么声。具体来说记忆库由若干个槽位对组成每个槽位对绑定了同一历史事件的视觉记忆和音频记忆视觉记忆编码角色外貌和表情状态音频记忆编码说话的音色特征。两者在事件级别一一绑定确保“这张脸配这个嗓音”的对应关系不会乱。记忆的更新策略也很讲究。不是把所有历史镜头一股脑塞进去而是保留前3个镜头作为锚点加上最近4个镜头作为上下文总共7个槽位。锚点负责远距离的身份参照上下文负责短程的连续性。这种远锚近联的设计在5分钟视频里让角色外观和声音保持高度一致。为了让记忆真正发挥作用团队在注意力机制上也做了精巧设计。音频分支中前70%的 Transformer变换器层屏蔽记忆token让模型先专注于当前镜头的语音内容和节奏后30%的层才打开记忆交互把音色信息融合进来。跨模态交互部分则用严格的槽位对齐掩码第i个视觉记忆槽只跟第i个音频记忆槽对话跨事件的脸音混搭被彻底禁止。训练时还有两个细节值得说。一个是记忆长度感知的损失加权记忆槽越多视觉端的监督信号越强因为长记忆上下文里唇形同步更难做需要更强的约束。另一个是音频到视频的梯度放大在保持前向计算不变的前提下把音频对视频分支的梯度贡献乘以放大因子让嘴型跟着语音走的耦合更紧。两个训练阶段里这些因子从2倍逐步提升到6倍。数据层面团队从百万量级的影视和网络长视频出发构建了一个以身份为核心的视频语料库。基本单位不是孤立的片段而是同一角色在不同场景下的多个镜头组。通过全局身份聚类、场景分组、局部角色分配、多样性筛选四步流程最终提取出超过100万个唯一角色身份每个身份关联多个场景多样的高质量镜头。这个数据集的设计哲学就是要让长视频生成需要模型看到同一角色在不同光照、服装、表情、背景下的变化而非仅仅是大量的孤立短视频。后训练快且好有了记忆库模型确实能保持跨镜头一致性了但生成质量、音视觉同步、推理速度仍有提升空间。JoyAI-Echo 设计了一套三阶段后训练管线从质量到对齐再到加速层层递进。第一阶段是记忆感知的 SFT监督微调。高质量的多镜头音视觉视频很稀缺但高质量的单镜头视频相对容易获取。团队的做法是把单镜头训练当作零记忆的多镜头训练的特例让两类数据在同一个框架下自然融合。微调过程中多镜头数据以一定概率被采样保留模型的记忆能力。分辨率方面采用渐进策略先在480p上微调再推进到720p让模型平稳适应更高的空间分辨率。第二阶段是跨模态 RLHF基于人类反馈的强化学习。团队引入了一个叫 OmniNFT 的模态感知扩散强化学习框架。原始的强化学习直接搬到多模态生成上有三个坑视频和音频的奖励优势经常不一致高质量画面不一定对应高质量声音视频分支的梯度会泄漏到音频网络的浅层干扰音频自身的生成均匀的信用分配策略没法区分音视觉同步中关键区域的贡献差异。OmniNFT 用三招对应解决模态独立优势路由给视频质量、音频保真、跨模态同步各算各的优势信号各走各的分支层级梯度手术在音频浅层部分切断视频梯度深层跨模态交互块保留完整梯度流区域损失加权用视频到音频的交叉注意力图定位发声区域对这些感知敏感区加大优化力度。第三阶段是记忆感知的 DMD分布匹配蒸馏。这是加速的核心。把多步教师模型蒸馏成一个8步学生模型教师、学生、分布匹配判别器三方共享相同的镜头条件和音视觉记忆确保蒸馏不只保留短视频质量还保留长视频的记忆条件行为。音频分支直接套标准蒸馏容易不稳定、引入可听噪声团队用 EMA指数移动平均平滑优化器动量缓冲区来缓解。视频和音频的损失权重比设为1:0.5平衡两个分支的梯度尺度。为了降低训练与推理的差距蒸馏训练时还对记忆输入施加退化模拟自回归生成中累积的漂移让学生模型在条件不完美时依然健壮。三阶段走完最终实现7.5倍推理加速视觉质量和对齐度也大幅提升。原来的多步模型变成了8步的快速生成器分钟级长视频的实时推理从理想变成现实。对话即创作实时出超清底层模型能生成长视频了但普通用户不会写结构化的镜头级提示词他们只会说“我想做一个关于巫师冒险的故事”。JoyAI-Echo 用 Director Agent 来弥合这个鸿沟。Director Agent 的工作流分规划和生成两阶段中间嵌入迭代式审查与修订。规划阶段Agent代理把用户模糊的意图展开成剧本、角色卡、场景卡、镜头计划每个镜头指定角色、动作、对白、时长等结构化信息。生成阶段Agent 把镜头计划编译成模型能理解的条件检索相关历史镜头选择动态记忆条目调用 JoyAI-Echo 生成器再把生成结果写回历史管理器。Agent 的记忆设计分固定和动态两种。固定记忆跟模型内部的记忆机制对齐从角色卡、参考图、参考音频或初始化镜头构建负责身份、外观、音色这类底层一致性。动态记忆由 Agent 按语义相关性选择对每个参考镜头应用 KOK关键帧选关键镜头策略提取同步的音视觉记忆对。固定记忆管认人动态记忆管叙事连贯各尽其职。审查与修订是闭环的。每个镜头生成后用户可以逐镜头检查给出局部修改指令比如改角色外貌、调动作、换对白。Agent 把反馈定位到受影响的镜头条件和关联记忆条目只重新生成对应的镜头不用整段重来。修订结果写回历史管理器如果修改影响后续叙事连续性Agent 还会更新后续镜头的动态记忆。这种闭环设计让长视频创作从一次性押宝变成边看边改。分辨率方面原生720p对于分钟级视频已经不错但离制作级高清还有距离。JoyAI-Echo 加了一个音视觉联合超分模块把超分当作条件生成任务来做给定低分辨率视频潜变量和粗音频潜变量SR超分辨率模型用单个扩散步生成对应的高分辨率视频和精细化音频。支持两个档位736×1280升到1152×19201K以及736×1280升到1472×25602K共享同一套架构和蒸馏流程。训练数据约87.6万高质量音视觉样本分辨率覆盖1080p到4K时长5到17秒。筛选很严格图像质量评估模型逐帧检查清晰度、噪声和压缩伪影音频质量评估器检查信噪比、频谱清晰度和削波视觉和听觉双门槛同时达标才保留。数据还刻意加重了困难样本的比例包括语音驱动的面部运动、屏幕文字、小物体、快速运动、密集纹理和镜头切换。蒸馏同样用DMD把多步超分模型压缩成单步生成器同时结合重建损失和LPIPS学习感知图像块相似度感知损失做稳定化。训练采用 LoRA低秩适配微调冻结的基础权重在教师和学生之间切换适配器避免在显存里同时维护两份完整模型。推理时JoyAI-Echo 先生成720p的视频和音频潜变量一步送入超分生成器直接输出高分辨率的精修视频和音频单次前向传播搞定。性能实测评估在一个精心构建的长篇音视觉生成基准上进行包含100个故事、3000个镜头每个故事30个连续镜头每镜头241帧、25fps。基准涵盖指定IP角色和原创角色动画风格和实拍风格。评估维度覆盖跨镜头一致性、视频质量、文本一致性、语音内容准确性五个方面。用户偏好测试采用盲评逐对比较GSB结果如下长视频对比中JoyAI-Echo 在视觉美学、音频质量、提示遵循、IP一致性四个维度上全面领先 Happy Oyster 的导演模式音频质量和提示遵循的优势尤其明显超过80%的评审选择了 JoyAI-Echo。短视频对比中面对短视频专精模型 Wan 2.6JoyAI-Echo 在视觉美学和提示遵循上同样占优。量化指标上JoyAI-Echo 在所有评估维度上都取得了最优成绩跨镜头一致性方面JoyAI-Echo 的 ViCLIP 相似度达到0.8026Self-CIDS跨镜头身份一致性达到0.7793语音一致性达到0.8129三项均为最高。与各维度最强基线相比Self-CIDS 提升了0.0302语音一致性提升了0.0184。级联方法ShotStreamMMAudio、StoryMemMMAudio在视觉一致性上有竞争力但语音准确率极低因为后处理的音频生成没法还原脚本对白的语义内容。视频质量方面JoyAI-Echo 的美学质量0.5679、成像质量0.7058均为最优。文本一致性 CLIP 分数0.2658同样是最高。语音内容准确率0.8646略超 LTX-2 的0.8564远超级联基线和 Happy Oyster。JoyAI-Echo 的代码和模型权重已公开发布。一个能在五分钟级的视频中记住角色长什么样、说话什么声保持角色一致性的开源模型让长视频生成向前推进了一步。参考资料https://echo-team-joy-future-academy-jd.github.io/Echo-LongVideo-Page/https://huggingface.co/jdopensource/JoyAI-Echohttps://github.com/jd-opensource/JoyAI-Echohttps://www.researchgate.net/publication/405770309_JoyAI-Echo_Pushing_the_Frontier_of_Long_Audio-Visual_Generation