新闻动态

听见我们的声音

一年一度的CVPR 2024论文录用结果出炉,粤港澳大湾区数字经济研究院(简称“IDEA研究院”)有四篇论文入选。

CVPR是计算机视觉领域最具权威性和影响力的学术会议之一,全称Conference on Computer Vision and Pattern Recognition(“国际计算机视觉与模式识别大会”)。据CVPR官方统计,今年共提交了11,532份有效论文,创历史新高。录用率为23.6%,比去年降低2.2%。

IDEA研究院入选论文分别针对视频编辑、3D虚拟人生成、现实世界HOI检测以及通用视觉情境提示框架进行研究。本期Paper Sparks为大家详细介绍论文中的技术亮点。

CVPR论文主题一览

· STEM inversion:无缝替换现有DDIM反演步骤并提升其视频编辑能力
· DiffSHEG:实时响应音频输入,高效生成连贯、富有表现力且表情和手势同步的虚拟人
· MP-HOI:解决文本描述中的泛化难题,实现开放世界中的HOI检测
· DINOv:支持通用分割和参考分割,可根据视觉提示关联多个或单个对象

 

01

本文提出了一个时空期望最大化 (Spatial-Temporal Expectation-Maximization, STEM) 的零样本视频编辑反演方法,可以无缝替换现有的diffusion-based视频编辑方法中的DDIM反演步骤,并提升它们的视频编辑能力。

对比传统的二维DDIM inversion或时空数据DDIM inversion,STEM反演方法以期望最大化的方式构建密集的视频特征,并迭代估计一个更紧凑的基础集来表示整个视频。每一帧都应用了固定和全局的表示进行反演,有助于在重建和编辑过程中保持时间一致性。


使用STEM反演方法将视频中的主体(左)替换成神奇女侠(右)。

实验结果表明,STEM反演方法可以更好地解决视频编辑中的闪烁问题、3D对应关系建模难题、时空一致性问题以及计算复杂性问题,具有广泛的应用前景。

本项工作由香港大学、IDEA研究院、北京大学和清华大学共同完成。

论文地址
主页地址

02

在实时生成与语音同步的人体形象时,人体的姿态与表情通常是独立生成的,这可能导致生成的人体形象在动作与表情上缺乏自然的同步性和协调性。本文提出了一种基于扩散模型的方法DiffSHEG (Diffusion-based approach for Speech-driven Holistic 3D Expression and Gesture),用于语音驱动的整体 3D 表达和任意长度的姿态生成。

DiffSHEG框架实现了从表情到手势的单向信息流,能更好地捕捉表情和手势之间的联合分布而不会互相干扰,从而进行合理匹配。此外,该方法引入了一种基于外部重绘的采样策略(Fast Out-Painting-based Partial Autoregressive Sampling, FOPPAS),用于扩散模型中的任意长序列生成,提供了灵活性和计算的高效性。


DiffSHEG功能示例:以语音生成人体肢体动作和面部表情,以输入的声音驱动自己的虚拟化身。

通过评估和用户反馈,DiffSHEG方法能够实时响应音频输入,高效地生成动作连贯且富有表现力、同时表情和手势同步的虚拟人,推动数字人和具身智能的发展。

本项工作由IDEA研究院和香港科技大学(广州)共同完成。

论文地址
主页地址

03

人体-物体交互检测(Human-Object Interaction, HOI)对于理解人类行为、进行场景分析和提高机器对视觉信息的理解能力至关重要,然而现有的方法难以处理带有高歧义性的文本描述。

为了实现开放世界中的HOI检测,本文提出了一种强大的多模态HOI检测器MP-HOI(Multi-modal Prompt-based HOI)。它将视觉提示集成到现有的仅由语言引导的HOI检测器中,以处理文本描述在泛化中面临的困难,并解决交互复杂性高的场景。


MP-HOI的框架由三个部分构成。

为了促进MP-HOI的训练,作者构建了一个大规模的HOI数据集Magic-HOI,将六个现有数据集合并到一个统一的标签空间中。为了解决Magic-HOI数据集中的长尾问题,作者引入了一个自动化的管道,用于生成真实标注的HOI图像,并提出了一个高质量的合成HOI数据集SynHOI,包含10万张图像。利用这两个数据集,MP-HOI将HOI任务优化为多模态提示与物体及交互之间的相似性学习过程,通过统一对比损失(unified contrastive loss)来学习大规模数据中可泛化和可转移的物体及交互表示。

MP-HOI可以作为一个通用的HOI检测器,其HOI词汇量已超过现有专家模型30倍以上。同时,实验结果表明,MP-HOI在现实世界场景中展示了卓越的零样本能力,并在多个基准测试中持续刷新SOTA。

本项工作由香港中文大学(深圳)和IDEA研究院共同完成。

论文主页

04

在大型语言模型中,上下文提示(in-context prompting)已成为提升零样本能力的一种普遍方法,但这一理念在视觉领域中尚未得到充分探索。现有的视觉提示方法未能解决通用的视觉任务,如开集分割和目标检测。

为了解决以上两种难点,本文提出了一个通用视觉情境提示框架DINOv。作者基于编码器-解码器架构,开发了一个多功能的提示编码器,以支持多种提示,如笔画、框和点。通过进一步增强,使其可以将任意数量的参考图像片段作为上下文。这种统一简化了模型设计,并使DINOv能够、使用语义标注数据和未标注数据,从而获得更好的性能。


DINOv支持通用分割和参考分割,可以根据用户输入的视觉提示关联多个或单个对象。用户可以输入一个或多个情境视觉提示(如点、框等)以提高分割性能。

广泛的实验表明,DINOv在闭集数据集中有出色的参考和通用分割能力,并在许多开集数据集上也有良好的效果。通过在COCO和SA-1B上的联合训练,DINOv在COCO和ADE20K上分别达到了57.7 PQ和23.2 PQ,展现了其在自动驾驶、医疗影像分析和智能监控等领域的应用潜力

本项工作由香港科技大学、华南理工大学、IDEA研究院、清华大学、威斯康星大学麦迪逊分校和微软研究院共同完成。

论文地址
代码地址

Paper Sparks | IDEA研究院CVPR 2024入选论文解读

日期:2024-07-10
  • 分享:
分别针对视频编辑、3D虚拟人生成、现实世界HOI检测以及通用视觉情境提示框架进行研究

一年一度的CVPR 2024论文录用结果出炉,粤港澳大湾区数字经济研究院(简称“IDEA研究院”)有四篇论文入选。

CVPR是计算机视觉领域最具权威性和影响力的学术会议之一,全称Conference on Computer Vision and Pattern Recognition(“国际计算机视觉与模式识别大会”)。据CVPR官方统计,今年共提交了11,532份有效论文,创历史新高。录用率为23.6%,比去年降低2.2%。

IDEA研究院入选论文分别针对视频编辑、3D虚拟人生成、现实世界HOI检测以及通用视觉情境提示框架进行研究。本期Paper Sparks为大家详细介绍论文中的技术亮点。

CVPR论文主题一览

· STEM inversion:无缝替换现有DDIM反演步骤并提升其视频编辑能力
· DiffSHEG:实时响应音频输入,高效生成连贯、富有表现力且表情和手势同步的虚拟人
· MP-HOI:解决文本描述中的泛化难题,实现开放世界中的HOI检测
· DINOv:支持通用分割和参考分割,可根据视觉提示关联多个或单个对象

 

01

本文提出了一个时空期望最大化 (Spatial-Temporal Expectation-Maximization, STEM) 的零样本视频编辑反演方法,可以无缝替换现有的diffusion-based视频编辑方法中的DDIM反演步骤,并提升它们的视频编辑能力。

对比传统的二维DDIM inversion或时空数据DDIM inversion,STEM反演方法以期望最大化的方式构建密集的视频特征,并迭代估计一个更紧凑的基础集来表示整个视频。每一帧都应用了固定和全局的表示进行反演,有助于在重建和编辑过程中保持时间一致性。


使用STEM反演方法将视频中的主体(左)替换成神奇女侠(右)。

实验结果表明,STEM反演方法可以更好地解决视频编辑中的闪烁问题、3D对应关系建模难题、时空一致性问题以及计算复杂性问题,具有广泛的应用前景。

本项工作由香港大学、IDEA研究院、北京大学和清华大学共同完成。

论文地址
主页地址

02

在实时生成与语音同步的人体形象时,人体的姿态与表情通常是独立生成的,这可能导致生成的人体形象在动作与表情上缺乏自然的同步性和协调性。本文提出了一种基于扩散模型的方法DiffSHEG (Diffusion-based approach for Speech-driven Holistic 3D Expression and Gesture),用于语音驱动的整体 3D 表达和任意长度的姿态生成。

DiffSHEG框架实现了从表情到手势的单向信息流,能更好地捕捉表情和手势之间的联合分布而不会互相干扰,从而进行合理匹配。此外,该方法引入了一种基于外部重绘的采样策略(Fast Out-Painting-based Partial Autoregressive Sampling, FOPPAS),用于扩散模型中的任意长序列生成,提供了灵活性和计算的高效性。


DiffSHEG功能示例:以语音生成人体肢体动作和面部表情,以输入的声音驱动自己的虚拟化身。

通过评估和用户反馈,DiffSHEG方法能够实时响应音频输入,高效地生成动作连贯且富有表现力、同时表情和手势同步的虚拟人,推动数字人和具身智能的发展。

本项工作由IDEA研究院和香港科技大学(广州)共同完成。

论文地址
主页地址

03

人体-物体交互检测(Human-Object Interaction, HOI)对于理解人类行为、进行场景分析和提高机器对视觉信息的理解能力至关重要,然而现有的方法难以处理带有高歧义性的文本描述。

为了实现开放世界中的HOI检测,本文提出了一种强大的多模态HOI检测器MP-HOI(Multi-modal Prompt-based HOI)。它将视觉提示集成到现有的仅由语言引导的HOI检测器中,以处理文本描述在泛化中面临的困难,并解决交互复杂性高的场景。


MP-HOI的框架由三个部分构成。

为了促进MP-HOI的训练,作者构建了一个大规模的HOI数据集Magic-HOI,将六个现有数据集合并到一个统一的标签空间中。为了解决Magic-HOI数据集中的长尾问题,作者引入了一个自动化的管道,用于生成真实标注的HOI图像,并提出了一个高质量的合成HOI数据集SynHOI,包含10万张图像。利用这两个数据集,MP-HOI将HOI任务优化为多模态提示与物体及交互之间的相似性学习过程,通过统一对比损失(unified contrastive loss)来学习大规模数据中可泛化和可转移的物体及交互表示。

MP-HOI可以作为一个通用的HOI检测器,其HOI词汇量已超过现有专家模型30倍以上。同时,实验结果表明,MP-HOI在现实世界场景中展示了卓越的零样本能力,并在多个基准测试中持续刷新SOTA。

本项工作由香港中文大学(深圳)和IDEA研究院共同完成。

论文主页

04

在大型语言模型中,上下文提示(in-context prompting)已成为提升零样本能力的一种普遍方法,但这一理念在视觉领域中尚未得到充分探索。现有的视觉提示方法未能解决通用的视觉任务,如开集分割和目标检测。

为了解决以上两种难点,本文提出了一个通用视觉情境提示框架DINOv。作者基于编码器-解码器架构,开发了一个多功能的提示编码器,以支持多种提示,如笔画、框和点。通过进一步增强,使其可以将任意数量的参考图像片段作为上下文。这种统一简化了模型设计,并使DINOv能够、使用语义标注数据和未标注数据,从而获得更好的性能。


DINOv支持通用分割和参考分割,可以根据用户输入的视觉提示关联多个或单个对象。用户可以输入一个或多个情境视觉提示(如点、框等)以提高分割性能。

广泛的实验表明,DINOv在闭集数据集中有出色的参考和通用分割能力,并在许多开集数据集上也有良好的效果。通过在COCO和SA-1B上的联合训练,DINOv在COCO和ADE20K上分别达到了57.7 PQ和23.2 PQ,展现了其在自动驾驶、医疗影像分析和智能监控等领域的应用潜力

本项工作由香港科技大学、华南理工大学、IDEA研究院、清华大学、威斯康星大学麦迪逊分校和微软研究院共同完成。

论文地址
代码地址