- 青年学者论坛嘉宾 -
马月昕,上海科技大学
作者简介:马月昕,上海科技大学研究员、助理教授、博导,博士毕业于香港大学。主要研究方向为三维视觉、具身智能、自动驾驶。共发表相关领域顶会或顶刊论文80余篇,其中一作与通讯论文40余篇,包括Science Robotics、TPAMI、CVPR、ICCV、ECCV、SIGGRAPH、AAAI等,谷歌学术引用近5000次。参与指导的论文获MICCAI 2024唯一最佳论文奖,ACM MM 2024最佳论文候选。曾获上海市海外高层次人才,上海市优秀教学成果(高等教育类)一等奖,曾获SemanticKITTI、NuScenes、Argoverse等多个国际自动驾驶挑战赛冠军和亚军。
报告题目: 面向人机共生的模型、系统及应用
年度成果亮点介绍: 马月昕于2024年度共发表25篇领域顶刊和顶会论文,其中一作和通讯CCF-A类论文13篇,包括TPAMI等。指导的论文获得MICCAI 2024唯一最佳论文奖、进入ACM MM 2024最佳论文候选,多篇文章获得会议的Oral、highlight。2024年度工作亮点从模型、系统、应用三方面总结如下:1. 多模态三维场景感知基础模型。设计了语言、图像、点云三模态的有效特征对齐方式,将大语言模型的通识能力迁移到三维场景,用一个模型、一套参数在12个三维场景感知数据集上达到了SOTA。工作发表于CVPR、ECCV、NeurIPS。2. 以人为中心的实时感知、重建、预测系统。聚焦以人为中心的三维场景,提出了创新的三维感知、重建及预测算法,支持对任意场景中人类行为实时、鲁棒、精准的表达、理解与分析。实现了完整的系统开发,已部署在多个应用场景。工作发表于CVPR(Highlight)、ECCV(Oral)、ACM MM(Best Paper Candidate)、MICCAI(Best Paper Award)。3. 类人智能的机器人应用。利用多模态大模型的常识推理和人类行为的知识迁移,实现了端到端类人灵巧手抓取算法及应用。工作发表于IJCAI(Oral)。
个人主页:https://yuexinma.me/aboutme.html
姚遥,南京大学
作者简介:姚遥,南京大学智能科学与技术学院准聘副教授、国家级青年人才。本科毕业于南京大学,博士毕业于香港科技大学,曾任Altizure创始团队核心成员,2020年随公司收购加入苹果任高级研究员。主要研究方向为三维重建与生成,代表工作包括MVSNet系列工作、NeILF系列工作以及Direct3D系列工作,谷歌学术引用超4900次,曾获2020年国际模式识别大会最佳学生论文奖。现作为负责人承担国自然海外优青项目、元宇宙专项项目、面上项目以及科技部重点研发计划课题等项目。
报告题目: Matrix3D: Large Photogrammetry Model All-in-One
年度成果亮点介绍: 申请人过去一年在三维重建与生成领域取得了一系列研究进展,以通讯作者身份发表顶级会议论文11篇,亮点工作如下:三维重建方面,Relightable 3DGS首次提出了针对离散高斯点云的光线追踪算法,实现了可重光照三维高斯点云的建模与优化,相关工作获华为公司火花奖,发表于ECCV 2024,谷歌学术引用已超100;Gaussian-Flow提出了纯离散点云表达的动态三维表征,显著提升了4D重建速度与精度,入选CVPR 2024亮点论文;Stereo Risk提出了连续风险优化的损失函数及可微分优化策略,提升了立体匹配网络的重建质量,入选ICML 2024 Oral论文。三维生成方面,Direct3D是最早引入DiT与显式三维表征的原生三维生成大模型,无需依赖多视角扩散模型或SDS优化,显著提升了三维生成的质量和泛化性,发表于NeurIPS 2024;Consistent4D首次探索了Video-to-4D任务,为单目视频动态三维生成方向研究设立了基准,发表于ICLR 2024;Matrix3D通过结合多模态扩散模型与掩码学习策略,实现了适用于三维重建全流程-即相机姿态估计、深度图预测和新视图合成任务的摄影测量大模型,发表于CVPR 2025。
个人主页:https://yoyo000.github.io
易冉,上海交通大学
作者简介:易冉,博士,上海交通大学计算机学院副教授、博士生导师。本科和博士毕业于清华大学。从事计算机图形学、可视媒体智能生成等方面的研究。发表录用90余篇论文于TPAMI、TOG、SIGGRAPH、CVPR等期刊会议,其中CCF-A类论文59篇。入选第八届中国科协“青年人才托举工程”、上海市扬帆计划,获北京市科技进步二等奖,中国图象图形学学会高等教育教学成果一等奖,中国图象图形学学会石青云女科学家奖(青英组),CCF-腾讯犀牛鸟基金卓越项目,瑞士Chorafas青年研究奖,数博会十大领先科技成果,ACM SIGAI China新星奖,吴文俊人工智能优秀博士学位论文等奖项。担任CSIG智能图形专委会副秘书长,TPAMI、IJCV、SIGGRAPH、CVPR等国际期刊会议审稿人。
报告题目: 动态场景下的高效3D高斯表达:从高速渲染到轻量存储
年度成果亮点介绍: 过去一年发表TPAMI TOG等CCF A类论文20余篇。亮点成果:1)SIGGRAPH Asia 24:提出AdR-Gaussian,一种基于自适应半径提前剔除的3DGS渲染加速算法,实现3倍的3D高斯渲染加速。该方法采用自适应半径来缩小每个高斯的渲染像素范围,将部分串行剔除从渲染阶段前移到预处理阶段,以实现并行剔除,并引入一种负载平衡方法,以最大限度减少像素并行渲染中的线程等待。2)CVPR 25:提出一种基于“参数化先验-3D高斯-紧凑张量”混合表征的3D头部建模方法,实现几何与外观属性、静态与动态细节的解耦重建;通过引入基于紧凑表征的动态纹理建模,进一步增强动态细节的表现力,重建更准确的动态细节效果,并大幅降低存储成本(单个人物仅需10M存储,300FPS)。3)AAAI 25:提出ID-Sculpt,一种基于身份信息增强的单张肖像图像到高保真三维人头生成方法,将身份信息注入几何初始化、几何生成和纹理生成阶段,保证多视角的身份一致性;实现最佳的头部几何形状细节、3D一致性和纹理真实感,并且支持生成不同风格的3D人头。
个人主页:https://yiranran.github.io
崔兆鹏,浙江大学
作者简介:崔兆鹏,浙江大学计算机科学与技术学院“百人计划”研究员、博士生导师,国家级青年人才计划入选者。研究方向为三维计算机视觉,具体包括三维重建、三维理解、SLAM、三维内容生成和三维运动规划等。近年来在计算机视觉、机器人、计算机图形学、机器学习等领域的顶级期刊和会议上发表论文50余篇。曾担任领域内顶级会议CVPR、ECCV、IJCAI领域主席,SIGGRAPH程序委员会委员,及ICRA、IROS副编委等。曾获ICRA 2020机器视觉最佳论文提名、IROS 2021安全、安保和救援机器人最佳论文提名、3DV 2024最佳论文荣誉提名。
报告题目: 基于神经表达的三维感知、预测与规划
年度成果亮点介绍: 2024年,课题组围绕三维空间智能展开深入研究,挖掘神经表征在经典三维视觉任务中的应用潜力,探索三维感知、预测与规划的新思路,具体包括: 1)Neural Perception:我们提出了基于神经网络优化的同步定位与建图系统(NICER-SLAM),通过设计高效的多层级神经表征,挖掘单帧几何先验与多帧约束关系,实现了基于单目相机的高精度同步定位与建图。该研究荣获3DV 2024 Best Paper Award Honorable Mention。在此基础上,我们进一步提出了高效的RGB-D SLAM系统(CG-SLAM),突破了现有Neural SLAM系统在运行效率上的瓶颈,在RTX 4090显卡上实现了23Hz以上的实时运行,大幅提升了神经SLAM在实际应用中的可行性。 2)Neural Prediction:我们探索了三维动态场景的神经预测方法,提出了一种基于关键点的同心运动蒸馏(Concentric Motion Distillation)技术,结合图卷积网络(GCN),成功实现了3D Gaussian Splatting(3DGS)场景的动态预测,能够支持未来任意时间步和视角下的高质量渲染,为动态场景重建和预测提供了新思路。 3)Neural Planning:我们提出了一种基于物理约束的自监督运动规划方法,通过构建时空偏微分方程与物理约束机制,实现了复杂环境下任意形状机器人的快速全局运动规划。该方法无需人工标注,通过自监督学习即可完成训练,有效提升了传统全局运动规划的效率和成功率,在室内机器人导航、自动驾驶等领域具有广泛的应用前景。
个人主页:http://www.cad.zju.edu.cn/home/zhpcui/
任杰骥,上海交通大学
作者简介:任杰骥,上海交通大学机械与动力工程学院助理研究员,主要研究方向包括机器人视触觉传感、光度立体视觉、软体机器人多模态感知与视觉三维重建等,围绕视触觉感知及其应用在Nature Communications、Soft Robotics、R-AL、TRO、Adv.Intell.Sys.、Smart Mater. Struct.、SPL、TIM、IJEM、Measurement和CVPR、ICCV、ICRA、CoRL等视觉与机器人相关领域期刊与国际会议上发表论文三十余篇,曾获CVPR Best paper Runners-Up、ICSMD最佳海报奖等,曾入选上海市“超级博士后”资助计划、上海市博士后创新创业大赛优胜奖等。
报告题目: 面向智能机器人灵巧操作的视触觉传感器设计与应用
年度成果亮点介绍: 随着人形机器人的快速发展,具备触觉感知能力的灵巧手已成为业界与学界关注的焦点。然而,现有研究主要集中于刚性灵巧手与指尖视触觉,对软体灵巧手和掌部触觉感知的探索仍显不足。针对这一问题,我们提出了全新的TacPalm-SoRoHand,通过集成高密度视触觉手掌与灵巧软体手指,赋予机器人手全新的感知与操作能力,为未来智能灵巧手的研发与应用提供了创新思路。TacPalm-SoRoHand将高密度视触觉传感器集成于手掌区域,使其在抓取过程中能够感知物体的形貌与相互作用。软体手指采用双腔体气动设计,不仅支持强力包络与精确捏取,还具有安全柔顺性;手掌触觉反馈则显著提升了抓取稳定性与可靠性。它不仅能快速搬运大型物体,还支持薄片物体的拾取、柔软布料的连续瑕疵检测和复杂工具器皿的实时姿态调整等复杂操作,展现了丰富感知能力与多样操作性能。高分辨率视触觉手掌与灵巧软体手指的紧密协同,将有望在医疗、制造、服务等领域做出贡献。相关研究成果以“Soft robotic hand with tactile palm-finger coordination”为题发表于Nature Communications。
个人主页:https://softrobotics.sjtu.edu.cn/index.html
李镇,香港中文大学(深圳)
作者简介:
报告题目: VisionPAD: 一种面向自动驾驶的纯视觉预训练方案
个人主页:https://mypage.cuhk.edu.cn/academics/lizhen/
彭思达,浙江大学
作者简介:彭思达,浙江大学软件学院“百人计划”研究员,博士生导师,研究方向为三维计算机视觉和计算机图形学。至今在TPAMI、CVPR、ICCV等期刊或会议发表六十余篇论文,谷歌学术引用5200余次,其中一篇一作论文获得CVPR最佳论文提名,成果获得GitHub数万次stars和2024年中国CCF图形开源软件奖;入选斯坦福2024全球Top 2%科学家榜单、2024年中国计算机学会优博(国内计算机领域评选十人);被苹果公司评为2022 Apple Scholar(亚太地区唯一),被华为公司评为2024启真优秀青年学者。
报告题目: 基于路采数据的动态街景高精建模与重渲染
年度成果亮点介绍: 在学术成果方面,本人过去一年围绕动态街景高精建模与重渲染问题展开研究,针对现有方法动态表征难、重建质量差、渲染视角小、雷达仿真慢四个局限,提出了动态三维街景表征构建与先验学习系列工作,包括Street Gaussians(ECCV 2024)、PromptDA(CVPR 2025)、StreetCrafter(CVPR 2025)、LiDAR-RT(CVPR 2025)。此外,本人构建动态三维重建开源算法库EasyVolcap,获评2024年CCF优秀图形开源软件奖,并向国际标准化小组委员会提交了标准提案。在学术影响方面,上述工作一年内已被引用120余次,开源加星共三千余次,被多个综述、书籍、推特大V介绍,其中Street Gaussians是最早提出动态街景高斯的研究之一,已成功应用并列入企业招聘要求,PromptDA正被集成进著名开源算法库transformers。此外,本人获评2024年CCF优博、斯坦福2024全球前2%科学家。在学术服务方面,本人2024年在GAMES平台上开办了公开课《图形视觉科研基本素养》,课程群共有2000多名学员。在GitHub上开源了科研入门文档,被加星6400余次。此外,还组织了首届神经全息视频国际研讨会以及多个国内会议前沿课程。
个人主页:https://pengsida.net
曾爱玲,Anuttacon
作者简介:
报告题目: 以人为中心的三维感知与生成
楚梦渝,北京大学
作者简介:楚梦渝,北京大学智能学院助理教授、博雅青年学者、未名青年学者,长期研究与深度学习融合的物理仿真技术,当前致力于研究新型神经表达的仿真方法。2020年获慕尼黑工业大学最优等博士学位,后于马克斯·普朗克研究所担任莉泽·迈特纳博士后研究员(2020-2022)。现担任SIGGRAPH Asia、Eurographics、SCA等国际顶级会议程序委员,多项成果发表于SIGGRAPH、TVCG等顶刊顶会。
报告题目: 基于新型表达的物理动态仿真与重建
年度成果亮点介绍: 楚梦渝团队围绕三维高斯、神经辐射场等新型表达,在物理动态仿真、重建与优化领域开展研究,推进智能仿真与渲染、几何及交互的融合。高效动态仿真:团队提出RainyGS [CVPR 2025],创新性耦合3D高斯与浅水波仿真,实现高保真、实时(>30fps)雨水洪水动态生成,支持雨量、风向精准控制,为自动驾驶等提供高质量物理环境。准确动态重建:团队开发了基于神经表达的路径场重建方法[SIGGRAPH 2024]。利用自动微分优化短时序约束,利用路径优化长时序动量\质量守恒,实现烟雾及障碍物混合场景的准确重建。高效物理优化:团队提出物理梯度-数据梯度协同投影优化策略[ICLR spotlight],通过梯度投影机制化解优化冲突,保持数据驱动灵活性的同时强化物理先验,为物理约束提供更鲁棒的优化方法。这些成果推进新型表达在渲染、动态、交互的统一发展,为智能仿真奠定基础。
个人主页:http://rachelcmy.github.io
黄相如,西湖大学
作者简介:黄相如,本科毕业于上海交通大学ACM班,博士毕业于美国德克萨斯州奥斯汀分校,后于麻省理工学院从事博士后研究工作。出站后于2023年参与魔珐科技公司技术研发工作,主要负责三维人脸图形数据扫描线等相关专业领域技术难点的突破,后于2024年6月加入西湖大学工学院,任三维数据处理及应用实验室助理教授。他在三维重建,高性能优化理论,几何生成等多个领域有多年学术研究积累和沉淀,参与了多个学术期刊和会议的审稿工作。
报告题目: 基于服装图形数据的快速物理仿真
年度成果亮点介绍: 本人工作主要关注几何重建和基于图形数据的生成问题:在动态头发几何重建方面,传统基于高斯泼溅的方案在处理多视角动态视频时,通常需要数个小时级别的处理时间。通过结合稀疏性优化等高性能优化技术,我们新提出的方法可以在头发的几何重建问题上,在几乎不牺牲重建效果的情况下,将计算效率提升1至2个数量级。在几何生成和运动建模方面,我们关注如何确保几何生成器在形变过程中的合理性这一问题。通过将基于物理和几何的正则约束加入几何生成器的训练损失函数,提升几何生成的合理性,该文章已被SIGGRAPH 2025接收。在可控视频生成方面,我们关注如何利用大量图形数据提升视频生成模型的可控性这一问题。提出了通过结合多种图形数据与真实视频数据,同时完成视角,光照,物体运动三者合一的可控视频生成模型。
个人主页:https://www.westlake.edu.cn/faculty/xiangru-huang.html
王鹏帅,北京大学
作者简介:王鹏帅,现任北京大学助理教授,博士生导师。于2013年和2018年分别于清华大学获得本科学位和博士学位。研究方向为计算机图形学、几何处理和三维深度学习。在学术会议SIGGRAPH(ASIA)、CVPR等上发表多篇论文。王鹏帅博士担任著名图形学期刊 IEEE TVCG和 Computers & Graphics的编委、著名图形学国际会议(如SIGGRAPH Asia 2024/2025、Eurographics 2024/2025、SGP2024/2025、CVM 2023/2024等)的会议程序委员。王鹏帅博士于2022年至2024年连续三年获得AMiner评选的AI 2000 最有影响力的学者称号,并于2023年获得亚洲图形学学会 (Asiagraphics) 青年学者奖。
报告题目: 基于GPT的三维生成模型
年度成果亮点介绍: 本年度工作聚焦图神经网络(GNNs)在几何处理与生成中的创新应用,围绕点云微分算子估计与高效三维生成两大核心难题展开。针对点云几何处理中拉普拉斯算子定义难题,提出基于GNNs的点云Laplacian算子(NeLo):摒弃传统方法对显式流形构造(如三角剖分)的依赖,直接基于点云KNN图结构,利用GNN动态学习边权重与质量矩阵。其核心创新在于提出了“鸭子测试”的训练范式,以低频特征向量与随机高频三角函数为探测函数,最小化神经算子与真实流形算子的映射差异,从而实现对NeLo的高效训练。实验表明,NeLo在ShapeNet数据集上显著优于现有方法,使热扩散、谱滤波等传统网格算法可直接应用于非结构点云,论文发表于SIGGRAPH Asia 2024(Journal Track)。  针对三维生成效率与精度的平衡难题,提出基于八叉树GNN的扩散模型OctFusion:通过定义在层次化八叉树上的图神经网络,将节点分裂信号与隐变量联合去噪,创新设计统一多尺度扩散框架,利用权重共享机制实现层级间参数复用,避免传统级联模型的冗余训练。该方法仅需33M参数即可在单卡2.5秒内生成高保真三维形状,支持文本、草图等多模态条件输入,并在ShapeNet与大规模Objaverse数据集上验证了其高效性与生成质量,几何连续性指标超越现有方法。
个人主页:https://wang-ps.github.io/
段岳圻,清华大学
作者简介:段岳圻,清华大学电子工程系助理教授,博士生导师,研究方向为三维计算机视觉。以第一/通讯作者发表IEEE汇刊和CCF-A类会议论文30余篇,主持科技部国家重点研发计划课题、中国科协青年人才托举工程项目、国家自然科学基金青年项目、腾讯犀牛鸟专项基金等,担任CVPR 2025、ICCV 2025、ICLR 2024等国际会议领域主席,FG 2023国际会议出版主席,曾获2024年中国电子学会自然科学一等奖、2024年公安部科学技术奖一等奖、2020年中国人工智能学会优秀博士论文。
报告题目: 生成式稀疏视角三维场景重建
年度成果亮点介绍: 基于稀疏视角的三维场景重建和新视角渲染是三维计算机视觉重要的研究问题。在过去一年中,我们首先探索了基于图模型的高斯泼溅Gaussian Graph Network,显式建模不同视角得到的高斯之间的关系,但是这种范式仍然无法解决两视角甚至单视角的问题。为了解决更少视角信息不完备的问题,我们利用已有视频生成大模型蒸馏三维空间一致的场景先验信息,将稀疏视角三维场景重建任务转化为三维空间一致视频生成问题,构建生成式三维场景重建范式,实现“信息够的地方重建,信息不够的地方生成”。基于该思路,我们提出了三维结构引导(ReconX)和基于动量(Scene Splatter)的视频生成过程,实现两视角甚至单视角的三维场景重建。对动态场景,我们提出DimensionX将视频传播中的时间和空间因素解耦,实现3D外观和4D动态运动的重建。此外针对该范式下视频生成模型耗时长的问题,我们提出一种三维一致的跳跃流蒸馏策略来跨越耗时的去噪阶段,实现单步生成三维场景(VideoScene)。以上部分工作发表在NeurIPS’24和CVPR’25,累计GitHub星标2K+。
个人主页:https://duanyueqi.github.io/
何天宇,微软
作者简介:何天宇,微软亚洲研究院高级研究员,2019年毕业于中国科学技术大学,曾担任阿里巴巴达摩院算法专家。现阶段主要研究兴趣为机器学习、生成模型及相关应用。他主导的多项研究发表在NeurIPS,ICLR,CVPR,ICCV,ECCV,T-PAMI等会议期刊,授权专利数项,并广泛落地于阿里云、微软Azure、微软Teams等相关产品中。
报告题目: 迈向可交互的世界模拟器
年度成果亮点介绍: 随着视觉生成模型的进步,世界模型由于其建模环境变化的能力越来越受到关注。本报告试图解决世界模型中的两个重点问题:一是如何高效表示视觉世界;二是如何得到可交互的生成模型。首先,我们提出了VidTok,一个目前市面上最好、最全面的开源视频Tokenizer;其次,我们实现了目前效果最好的MineCraft世界模型;进一步的,为实现真实世界中的世界模型,由于真实世界缺乏Action标注,我们探究了不同的与模型交互的方式,一种是Latent Action,可以实现人类到机器人的动作迁移,一种是Video Demonstration,可以zero-shot学习视频中的动作;最后,我们也探索了改变相机视角来实现与模型的交互。相关工作发表于ECCV 2024, NeurIPS 2024, ICLR 2024等会议期刊。
个人主页:https://www.microsoft.com/en-us/research/people/tianyuhe/
朱昊,南京大学
作者简介:朱昊于南京大学获得学士和博士学位,现为南京大学智能科学与技术学院助理教授、姑苏青年教授,共同指导南京大学三维视觉实验室(NJU-3DV),也是计算成像实验室(CITE)的一员,从事三维视觉和人工智能方向的研究。近年来聚焦三维数字人的重建、生成与驱动,发表顶级期刊和会议论文三十余篇,相关研究成果被应用于多部影视作品特效和数字人的制作。入选第八届中国科协青年人才托举工程、获得IEEE CAS杰出青年作者奖等荣誉。
报告题目: Scaling UP 3D Digital Human Generation
年度成果亮点介绍: 2024年,我们提出了"Scaling UP 3D Digital Human Generation"系列工作,在大模型的助力下,实现更高水平的三维数字人生成模型。取得了三大核心进展:(1)数据维度跃迁:构建首个十万级多视角三维人体数据集,突破公开数据规模局限。提出人物视频生成模型Champ,融合互联网视频流与人体结构先验,实现单图驱动的高保真动态生成,并支持多视角扩展。(2)生成范式革新:开发了0.7B参数量的前馈式数字人生成模型IDOL,开创秒级可驱动三维人体高斯重建模型。该模型通过自监督学习实现任意人物图像的快速三维化,兼具极强可驱动性与外貌泛化能力,重新定义数字人创建效率与创意边界。(3)跨模态拓展:提出文生三维模型TeRA,通过潜扩散模型和蒸馏的重建编码模型,实现语义到三维数字人几何的最优映射。本系列工作突破数据、算法与应用瓶颈,实现了技术阶段性跨越。尽管三维数字人生成道路仍存挑战,但已验证Scaling Law在数字人生成领域的适配潜力,期待学界产业界共同推进技术演进。
个人主页:http://zhuhao.cc/home
李修,字节跳动
作者简介:李修,字节跳动豆包大模型团队研究员,研究方向为3D/4D基础模型。本科及博士毕业于清华大学自动化系,2017-2019年在 CMU访问学习,2021年在微软亚洲研究院做研究实习生。在加入豆包大模型团队前负责AI换装研发,已广泛上线至即梦、剪映等字节跳动产品矩阵。
报告题目: 连接三维生成与视频生成的尝试
年度成果亮点介绍: 以Sora、可灵为代表的视频大模型出现后,3D是否还有必要,DiT模型是否简单Scaling就可以解决所有问题被广泛讨论。我们从视频和3D两个方面入手讨论当前视频模型存在的问题,3D模型存在的必要,以及如何更好的结合3D和视频模型。首先,尽管视频本身具有天然的时序性,但主流的视频模型并不是时序模型(或自回归)模型,我们将这一原因解释为当前视频Tokenizer的不足,并且以人脸为研究对象,提出了Motion Tokenizer, 将视频的内容与运动分离,实现了高保真的自回归生成。其次,从3D的视角,我们注意到投影几何等低层级特征很容易被模型学到,那么从视频到3D进行迁移更重要的是运动信息的迁移,对此我们关注如何生成可驱动的3D物体,提出了使用自回归模型预测骨骼信息,并用扩散模型预测绑定权重信息,实现了任意骨骼拓扑物体的驱动信息生成。最后我们会对如何更好的对视频和3D进行统一建模提出一些设想。
个人主页:https://lixiulive.com
徐英豪,斯坦福大学
作者简介:Yinghao Xu is a postdoc at the Stanford Computational Imaging Lab, Stanford University, working with Prof. Gordon Wetzstein. He was a Ph.D. student at the Multimedia Lab (MMLab) at The Chinese University of Hong Kong. He is deeply interested in problems lying at the intersection of Computer Graphics and Computer Vision. Currently, his research focuses on generative models and neural rendering, particularly in the area of 3D generative models.
报告题目: Generative Reality: Advancing 3D Foundation Models and Efficient 4D Human Generation
年度成果亮点介绍: -------
个人主页:https://justimyhxu.github.io/
于开丞,西湖大学
作者简介:于开丞博士,西湖大学工学院特聘研究员,其负责组建自主智能实验室(AutoLab)并致力于构建基于数据驱动世界模型为核心的的下一代自主智能系统。于开丞先后于2016年获香港大学工学学士(一等荣誉),2021年获瑞士洛桑联邦理工大学(EPFL)计算与通讯科学理学博士学位。其研究的主要方向为3D视觉、自动驾驶、自动机器学习等,并先后在因特尔智慧系统实验室(Intel Intelligent Systems Lab),Abacus.AI,阿里巴巴达摩院从事相关领域的研究工作,担任汽车工程顶刊Automotive Innovations副主编。于开丞博士主持多个国家、省部级、校企合作项目,并入选第十届中国科协青年人才托举工程。
报告题目: 面向自动驾驶端到端模型的数据闭环
年度成果亮点介绍: 我们关注以数据闭环技术驱动端到端自动驾驶模型。单一模态的自动驾驶激光雷达仿真数据难以满足日益发展的感知模型前融合进程。而依赖人工绘制和编排的多模态数据,其效率较低,因此,开展异构多源传感器的联合仿真生成成为推动数据扩增的必要条件。而当前的联合仿真方法,通常采用激光雷达-摄像头多传感器神经联合渲染方法,往往侧重于优化其中一种传感器的性能,无法进行全传感器同时增益。针对此问题,我们提出了基于激光雷达的神经辐射场和基于几何约束的哈希编码联合神经渲染,高效的进行联合传感器建模,突破了联合仿真难题。在此基础上,我们提出了以交通智能体进行以文字和场景布局驱动的任意场景生成范式,实现了传统人工编排构建新场景的自动化建模机制。经实验测试,该范式产生的联合仿真的误差距离较之前方案下降14%,并可进行丰富的任意路况下的场景生成,生成的数据重新训练的端到端模型误差下降39%,迈出自动驾驶自我修复的第一步。
个人主页:www.yukaicheng.cn
杨洁,中科院计算所
作者简介:杨洁,中国科学院计算技术研究所助理研究员,博士毕业于中科院计算所(导师:高林,夏时洪),研究方向为几何处理和几何学习。相关研究成果发表在ACM SIGGRAPH\TOG、IEEE TPAMI、IEEE TVCG、NeurIPS、CVPR等期刊和会议上。曾获得博士后创新人才支持计划、浙江大学陆增镛高科技奖等奖项。目前担任中国计算机学会计算机辅助设计与图形学专委会执行委员、中国图象图形学学会智能图形专委会委员以及中国图象图形学学会三维视觉专委会委员,并担任多个期刊会议的审稿人。
报告题目: 具有复杂拓扑的开曲面重建与生成
年度成果亮点介绍: 稀疏输入三维重建和生成一直是计算机图形学领域最具挑战的问题之一。然而,现有技术存在一些局限性,基于NeRF的方法只能处理封闭曲面,且需要额外的三维数据监督。为了解决这些挑战,提出了NeUDF和DreamUDF,实现了对一般模型的复杂拓扑表面的重建和生成。具体而言,NeUDF使用无符号距离场(UDF)作为曲面表示,并通过基于UDF的体渲染方法,提出了一种新的体渲染权重函数,该函数对于无符号距离场(UDF)具有自一致性、无偏差且对遮挡具有感知能力,以输入图像为监督,优化神经网络,从而可以从多张彩色图片获得精确的开放曲面。进一步提出了DreamUDF,解决根据稀疏和模糊观察结果生成正确拓扑的挑战,结合了来自多视图扩散模型的数据先验和UDF重建器带来的几何先验,利用基于UDF和扩散模型的联合框架以及耦合训练方法,使得UDF和NeRF相互优化,能够从单张图像生成具有任意拓扑结构的高质量3D物体。
个人主页:http://people.geometrylearning.com/~jieyang/
于超辉,阿里达摩院
作者简介:于超辉,阿里巴巴达摩院视觉技术实验室算法专家,于2017年和2020年分别在山东大学和中科院计算所获得学士学位和硕士学位。研究兴趣为计算机视觉理解与生成,曾获得ICCV21遥感图像目标检测竞赛冠军,近期研究主要集中在3D/4D的重建与生成,并致力于探索三维生成在视频生成中的应用。在CVPR/ECCV/NeurIPS等顶级期刊和会议发表文章二十余篇,谷歌学术引用超2000次。
报告题目: 面向3D/4D生成的探索及应用
年度成果亮点介绍: 过去一年,我致力于3D/4D生成领域的研究,在3D物体生成方向,我们提出了高效图生3D基模型LPM,这是一个能在0.1s的时间通过从残缺表征建模完整3D表征完成3D生成的自回归式框架;提出了纹理贴图工作VCD-Texture,引入2D-3D联合去噪去提升基于2D基模做Texturing范式的一致性。在3D场景生成方面,我们提出了场景编辑算法MVInpainter,这是第一个不需要pose的通过多视角一致性inpainting进行场景编辑的工作。提出了MVGenMaster,通过构建百万3D先验的数据集去显著增强2D基模在场景新视角生成的泛化性和3D一致性。在4D生成方向,我们提出了4D物体驱动生成基模Animate3D,这是第一个利用自研多视角视频生成基模和4DSDS进行4D生成的工作;还提出了Video-to-4D生成算法SC4D,通过引入稀疏控制点并解耦运动和纹理进而做到高效4D生成和动作迁移应用。
个人主页:https://richardych.github.io/
苏卓,字节跳动
作者简介:苏卓,字节跳动研究员,专注于3D数字人技术,研究方向涵盖人体重建、3D生成、神经渲染及动作捕捉。致力于以人为中心的动态场景感知与数字化,为VR/AR沉浸式应用提供关键技术支持。研究成果发表于TPAMI、CVPR、ICCV、ECCV、NeurIPS等顶级期刊与会议,并担任CVPR、ICCV、NeurIPS、ICLR、ICML、TVCG、3DV、IEEE VR和ACMMM等国际会议和期刊的审稿人。
报告题目: 面向XR稀疏观测的人体运动捕捉与形象重建
年度成果亮点介绍: 本年度工作聚焦于人体运动捕捉与形象重建,围绕XR场景中的稀疏观测挑战,提出多项创新方法,为VR/AR沉浸式应用提供关键技术支持。在稀疏传感器配置下的运动捕捉方面,HMD-Poser (CVPR 2024) 率先实现了端上运行的全身动捕,支持头显、手柄、腿部IMU等跟踪节点多种组合输入;EMHI & MEPoser (AAAI 2025) 通过融合稀疏跟踪节点与头显下视图像的多模态数据,提升了姿态估计精度,并发布大尺度动捕数据集;EnvPoser (CVPR 2025) 则利用稀疏跟踪节点和预扫描的环境信息引入不确定性建模与环境约束,进一步提高了运动感知的精度。在稀疏图像输入下的形象重建方面,OHTA (CVPR 2024) 和HeadGAP (3DV 2025) 采用泛化先验模型训练与反演和微调策略,分别实现了单图手部和少图脸部化身重建,并结合隐式表达与神经渲染技术,实现了高保真重建与动画驱动;HumanSplat (NeurIPS 2024) 首次基于3DGS实现了泛化的单图人体重建,结合视频生成、重建模型与人体结构先验,突破了实例优化的瓶颈,大幅提升效率的同时保证真实感。这些研究共同推动了XR场景中相关应用的落地。
个人主页:https://suzhuo.github.io/
陈伟凯,腾讯美国
作者简介:陈伟凯,现任腾讯美国专家研究员。他于2017年获得香港大学计算机博士学位,2017至2019年先后在美国南加州大学从事博士后研究和担任副研究员。主要研究方向为三维视觉和计算机图形学,包括三维生成模型、三维重建与可微分渲染等。迄今已在著名国际期刊和会议发表论文40余篇,包括顶级会议和期刊SIGGRAPH(Asia)、CVPR、ICCV、NeurIPS、ACM TOG、IEEE TPAMI等。谷歌引用超3100次,H-index 25。他曾获得CVPR 2019最佳论文Finalist(入选率为0.8%),CCF图形开源数据集奖(DeepFashion3D,ECCV20)。其代表作SoftRas(单篇引用超870次)被Pytorch3D集成为核心算法,被学术界和工业界广泛应用。他也曾获得ACCV杰出审稿人称号。
报告题目: 面向灵活拓扑的三维生成模型
年度成果亮点介绍: 在计算机图形学和计算机视觉领域,3D 生成技术已成为重要的研究方向。然而,现有的方法大多基于有符号距离函数(SDF) 或密度场表示,仅适用于封闭表面,无法处理现实中大量具有开放边界的物体,如衣领、花瓣、树叶等。这种局限性不仅影响了 3D 形状的真实性,还限制了生成结果的拓扑灵活性。为此,我们提出 DreamUDF,一种能够从单张 RGB 图像生成任意拓扑 3D 形状的新框架。DreamUDF 结合 2D 数据先验(多视角扩散模型)和 3D 几何先验(无符号距离场 UDF),打破了封闭表面的限制,使得 3D 生成能够支持复杂拓扑结构。本框架采用 联合网络架构,包括一个 生成模块,利用神经辐射场(NeRF)优化 3D 体积渲染,和一个 重建模块,通过 UDF 进行几何优化,提取精确的 3D 形状。为了使两个模块在训练过程中相互增强,我们提出 场耦合器(Field Coupler) 和 交替训练策略,确保生成与重建协同优化,从而提升几何精度和拓扑合理性。实验表明,DreamUDF 能够在各种开放或复杂拓扑的 3D 形状上实现高质量生成,超越现有方法,为 3D 生成和重建提供了新的可能性。DreamUDF已被SIGGRAPH Asia 2024 (ACM TOG)接收。
胡文博,腾讯 ARC Lab
作者简介:胡文博,腾讯ARC Lab高级研究员。于2022年获得香港中文大学博士学位,此前于2018年获得大连理工大学学士学位。研究方向为生成式的世界模型,包括图像/视频的3D/4D重建,新视角合成,视频生成等。在图形学和视觉国际期刊和会议发表20余篇论文,包括SIGGRAPH, SIGGRAPH Asia, CVPR, ICCV, ECCV, NeurIPS等,担任多个国际会议和期刊的审稿人,多项工作获得GitHub 1K+ Star。曾获CCF优秀大学生,所做工作Tri-MipRF曾获得ICCV’23 Best Paper Finalist。
报告题目: GenConstruction: The Mutual Benefit between Content Generation and Reconstruction
年度成果亮点介绍: 过去的一年里,我的研究主要集中于3D/4D的重建和生成。我们的DepthCrafter创新性地提出了一种基于视频扩散模型的深度估计方法,能够为开放世界的长视频生成时序一致且高质量的深度序列。该工作在国内外的社区中受到了广泛关注和讨论,开源项目获得了GitHub 1.2K+ Star, HuggingFace模型累计下载量超过130万次。ViewCrafter和TrajectoryCrafter则分别将3D点云应用于视频生成模型,创新性地实现了单图像的新视角合成和单目视频的新轨迹生成。这两个工作探索了从单一2D观测中去生成背后的3D/4D世界的可能性,为世界模型的研究提供了一种思路,受到了学术界和工业界的广泛关注,其开源项目合计获得了GitHub 1.7K+ Star。此外,我们也对基于NeRF和3DGS的重建方法做了一系列的探索,包括反走样,逆渲染,解耦几何纹理,编辑等。过去的一年共计发表了10篇顶会论文,包括1*SIGGRAPH,4*CVPR,4*ECCV, 1*NeurIPS,其中一作或通讯文章5篇。
个人主页:https://wbhu.github.io
Copyright ©  China3DV 2025 中国三维视觉大会  京ICP备2022017585号-2

报告简介: 

个人简介: