搜索

科研成果

智能机器人与先进制造创新学院认知与智能技术实验室两项创新成果被ACM MM 2025录用

时间:2025-07-23来源:复旦大学智能机器人与先进制造创新学院

  • 首页  学术科研  科研成果智能机器人与先进制造创新学院认知与智能技术实验室两项创新成果被ACM MM 2025录用


近日,复旦大学智能机器人与先进制造创新学院认知与智能技术实验室(简称CITLab)撰写的两项学术成果被CCF-A类学术会议ACM MM 2025录用。


论文简介

(1)UMSD:High Realism Motion Style Transfer via Unified Mamba-based Diffusion

第一作者:22级直博生钱子赟、23级硕士生肖泽宇;通讯作者:张立华教授

  动作风格是人体运动的重要特征,能够体现人物的情绪、年龄及健康状况等个性化特征,在人类角色和虚拟形象的动画制作中具有关键作用。动作风格迁移技术可在保持动作内容不变的前提下快速切换不同风格,显著提升数字人动作的多样性和真实感,广泛应用于影视制作、游戏开发、虚拟现实等领域。然而,现有方法在动作风格迁移方面仍存在以下局限:(1)采用双流结构,通过两个独立编码器分别提取内容与风格特征,容易忽略二者间的内在关联,导致信息丢失;(2)在处理长时序动作时,难以有效建模时序依赖关系,致使生成的风格化动作序列不够自然流畅。

1 UMSD框架的示意图



为了解决上述问题,本研究提出了 Unified Motion Style Diffusion (UMSD)框架,其包含了三个核心的创新点:(1)使用单流结构设计,能够同时从内容和风格动作中提取特征,并实现充分的信息交互。(2)首次将Mamba模型用于动作风格迁移领域,利用状态空间模型强大的序列建模能力有效捕捉长程依赖关系。(3)提出基于扩散模型的风格和内容一致性损失,约束UMSD框架在完整保留动作内容的同时,更准确地学习风格特征。

2 对比实验的效果图


在与最先进方法的对比实验中,论文将childlike风格迁移到jump动作上时,其他方法生成的动作手部非常弯曲,而本文的方法所生成的动作在继承jump内容的同时学习到了childlike风格手部平直的特征,在风格表现力和动作自然度上均展现出显著优势。



(2)VLM-based Prompts as the Optimal Assistant for Unpaired Histopathology Virtual Staining

第一作者:24级硕士生陈滋知、22级直博生韩铭浩;通讯作者:张立华教授


在组织病理学中,组织切片通常使用常规的 H&E 染色或特殊染色(如 MASPASPASM 等)来清晰地显示特定的组织结构。深度学习的快速发展为生成虚拟染色图像提供了一种有效的解决方案,显著减少了传统组织化学染色所需的时间和人力成本。然而,在虚拟染色过程中,目前的方法无法将组织切片的基本视觉特征与染色剂引起的视觉差异区分开来,染色结果大多不符合病理学的医学性质和染色的物理化学特性,只在色彩风格层面实现了迁移。这导致了细胞核染色错误,边缘纹理被破坏等一系列问题,严重影响了虚拟染色效果,降低了虚拟染色切片辅助临床诊断的可靠性。

为了解决上述问题,该研究对视觉语言大模型的提示词在细分场景下的作用展开了探究,提出了三种不同的基于视觉语言大模型的提示词辅助虚拟染色的生成和使用策略。包含分类任务下可训练的对比提示词,基于大语言模型的染色特征提示词和基于视觉语言大模型的多层级色彩矫正约束。


3 三种基于视觉语言大模型的提示词生成和使用方法


在此基础上,该研究将不同的提示词运用到虚拟染色生成的不同阶段上,实现不同的专精目的。该研究的第一阶段模型称为VPGAN,这是一种即插即用的模型,可用在所有GAN架构上。它通过提示词注入的方法让生成模型知晓染色过程的信息表达,明确染色的特定性质和切片的固有性质。二阶段模型HARBOR则提供了一种可选择的推理增强方案,使用DDIM架构增强病灶微观细节,实现更精确的视觉优化。


4 VPGANHARBOR模型框架


综合的实验结果表明,提出的方法实现了无开销推理和推理增强两个不同成本下的最优虚拟染色效果,并可矫正生成模型的染色崩坏现象,证明了视觉语言大模型在辅助图像生成上的巨大潜能和广阔前景。

在课题组主持的国家自然科学基金重大项目课题-“肝癌智能化精准外科的共性关键技术体系的建立”中,本研究提出的方法可以有效对肝癌患者的病理切片进行不同染色剂性质的虚拟染色,解决了染色切片染色一次性的资源困境,也显著降低了真实染色的人力物力开销,使医生和相关模型均可在更丰富的数据资源下高效诊断。


延伸阅读

复旦大学认知与智能技术实验室(简称CITLab)隶属于复旦大学智能机器人与先进制造创新学院、复旦大学智能机器人研究院、复旦大学元宇宙智慧医疗研究所,近年来一直在机器直觉与具身智能、物理仿真与数字孪生、多模态感知与行为识别、情感分析与大语言模型、脑机解码与人机交互以及智能机器人与无人系统、智能驾驶与智能医学等领域开展交叉创新研究,相关学术成果发表于Nature主刊、中国科学、T-PAMIT-ITST-CSVTT-MIRA-LNeurIPSCVPRICCVECCVAAAIACM MM以及ICRAIROS等国内外顶级学术期刊与学术会议。

ACM MM (ACM International Conference on Multimedia)是世界范围内多媒体领域的重要盛会。该会议是中国计算机学会推荐的CCF-A类顶级国际学术会议,每一年举办一次。



分享文章