近日，为期六天的人工智能领域全球顶级会议 NeurlPS 在美国举办。根据 NeurlPS 官方披露的数据显示，本届会议共有 12,343 篇有效论文投稿，接收率仅为 26.1%。粤港澳大湾区数字经济研究院（简称”IDEA 研究院”）有五篇论文被收录，其中一篇入选了 NeurIPS Spotlight Presentation（接收率约 3%）。

NeurIPS 全称神经信息处理系统大会（Annual Conference on Neural Information Processing Systems），是机器学习和计算神经科学领域的顶级国际会议，每年年末都是计算机科学领域瞩目的焦点。

论文主题一览
· Motion-X：突破运动捕捉数据局限性的大规模 3D 人体动作数据集
· DreamWaltz：可实现高质量复杂数字 3D 人物生成及动画制作的新框架
· HMNeRFBench：针对人体 NeRF（神经辐射场）模型的综合评估基准
· L-CAD：创新的语言驱动纯灰度图像上色方法
· SMPLer-X：针对人体全身姿态与体型估计任务的动捕大模型

本文开发了一个全身动作和文本标注管线，可以自动标注单视角或多视角视频中的动作，并为每个视频提供全面的语义标签和精确到每帧的精细化全身姿态描述。这个流程具有高精度、高性价比和可扩展性强的优势。

现有的运动数据集通常只包含身体姿势数据，缺乏对面部表情、手势和精细的姿态的描述。与此同时，运动数据集的可拓展性受极大的限制，因为这些数据集大多取自有限的实验室场景，并通过人工手动标注文本描述。

Motion-X 概览：(a) 从 BAUM 中提取的多样化面部表情，(b) 有丰富的面部表情和手部动作的室内运动，(c) 多样化且具有高难度姿势的户外运动，以及 (d) 几个运动序列。紫色的 SMPL-X 是观察到的帧，其他的是邻近的姿势。

基于此，本文构建了大型 3D 全身动作数据集 Motion-X。它包含了 1560 万个精确的 3D 全身姿态标注（即 SMPL-X），涵盖了来自大量场景的 8.1 万个运动序列。此外，Motion-X 提供了 1560 万个帧级全身姿态描述和 8.1 万个序列级语义标签。

实验表明，注释文本标注管线的准确性以及 Motion-X 在增强表达性、多样性、以及自然运动生成、3D 全身人体网格复原方面均具显著优势。

本项工作由 IDEA 研究院、清华大学深圳国际研究生院和香港中文大学（深圳）共同完成。

论文地址
 代码地址

DreamWaltz 是一个用于生成高质量数字 3D 人物的新框架，基于预训练二维扩散模型 ControlNet 和人体参数模型 SMPL，实现文本驱动复杂 3D 人物的生成和动画制作。

（a, b）展示了 DreamWaltz 利用文本驱动复杂 3D 人物的生成，(c, d) 是准备制作具有不同组合的复杂互动式场景

虽然现有技术在文生 3D 方面取得了不错的成果，但要创作高质量和可动画化的 3D 人物仍非常困难。为了制作高质量的 3D 人物，DreamWaltz 提出了 3D 一致性分数蒸馏采样方法（SDS，Score Distillation Sampling），以优化具有典型姿势的隐式神经表征。通过三维感知骨架调节提供视图对齐监督，DreamWaltz 能够生成复杂的人物，不会出现伪影和多张脸的问题。在动画方面，此方法可以学习可动画化和通用化的人物表示，从而将任意姿势映射到标准姿势表示中。

评估结果表明，DreamWaltz 是一种有效且稳定的框架，可用于创建具有复杂外形的 3D 人物并制作姿势新奇的动画，还能进一步创建具有不同组合的复杂场景，例如人物与人物、人物与物体、人物与场景之间的互动。

本项工作由 IDEA 研究院和中国科学技术大学共同完成。

论文地址
 代码地址

在过去的两年里，人们对 NeRF-based（神经辐射场）人体渲染技术的兴趣大增。这项技术爆炸式的增长虽带来了进步，但也导致了大量方法和数据集的涌入，使得实验设置变得越来越复杂，评估和比较越来越难。为了给人体 NeRF 模型建立公平合理的评估基准，本文对评估的内容和指标进行了设计和深入研究。

对 NueralBody、HumanNeRF 和 NHP 进行定性比较，分别使用准确的（伪 GT SMPL）和不准确的（由 Hybrik 估计的）SMPL 参数

为了评估模型的效果，本文针对不同的困难场景对其进行了基准测试，同时还在大规模数据集上构建了一个预训练的跨主体基准，以用于评估可通用性。最后，本文还分析了可动性和通用性的基本要素，使单目视频中的 HumanNeRF 具有通用性，并以此作为基准。

本项工作由 IDEA 研究院和香港中文大学（深圳）共同完成。

论文地址
 代码地址

黑白照片上色是图像修复的经典问题。本文提出了一种创新的语言驱动纯灰度图像上色方法 L-CAD，突破了先前方法对用户提供详细颜色描述的依赖。用简单的自然语言描述，该模型能处理各种上色描述级别，从非常简略到全面的描述不等。相较于以往的方法里需假设用户提供非常详尽的描述，L-CAD 引入了一个统一的模型，利用预训练的跨模态生成模型进行语言理解，并融合了丰富的颜色先验知识，以处理任何级别描述中存在的歧义。该论文入选了 NeurIPS Spotlight Presentation（接收率约 3%）。

L-CAD 可以根据用户语言描述完成黑白照片上色任务，处理复杂程度各异的情况

论文进一步设计了特定模块以对齐输入条件，保护图像的局部空间结构，避免上色过程中常见的伪影现象。通过提出新的采样策略，该模型能够在复杂多样的场景下实现对个体实例的感知上色，确保了更准确和视觉效果更佳的上色结果。在广泛的实验验证中，该方法在有效处理各种描述级别下的图像上色任务中均显示出优势，超越了基于语言和自动的上色方法。

本项工作由北京邮电大学、北京大学和 IDEA 研究院共同完成。

论文地址
 代码地址

本文首次提出针对人体全身姿态与体型估计任务的动捕大模型 SMPLer-X。人体全身姿态与体型估计（EHPS, Expressive Human Pose and Shape estimation）虽然目前已经取得了非常大研究进展，但当下最先进的方法仍然受限于有限的训练数据集。

基于对大量数据和大型模型的探索，SMPLer-X 在各种测试和榜单中表现出强大的性能，即使在先前未遇到过的环境中也具有出色的通用性：
– 在数据扩展方面，研究人员对 32 个 3D 人体数据集进行了系统的评估与分析，为模型训练提供参考；
– 在模型缩放方面，利用视觉大模型来研究该任务中增大模型参数量带来的性能提升；
– 通过微调策略可以将 SMPLer-X 通用大模型转变为专用大模型，使其能够实现进一步的性能提升

我们将 SMPLer-X-L32 与 OSX 和 Hand4Whole（使用 MSCOCO、MPII 和 Human3.6M 训练）在各种场景中进行比较，如严重截断、高难度姿势和不常见的摄像机角度等场景