-  Keynote Speakers  -
Marc Pollefeys
Professor, ETH Zurich
Title: Spatial AI to assist humans and enable robots
Bio: Marc Pollefeys is a Professor of Computer Science at ETH Zurich and the Director of the Microsoft Spatial AI Lab in Zurich where he works with a team of scientists and engineers to develop advanced perception capabilities for AI assistants and robotic agents. He is a Fellow of IEEE, ACM, AAIA and ELLIS, as well as a member of the Academia Europaea. He obtained his PhD from the KU Leuven in 1999 and was a professor at UNC Chapel Hill before joining ETH Zurich.He is best known for his work in 3D computer vision, having been the first to develop a software pipeline to automatically turn photographs into 3D models, but also works on robotics, graphics and machine learning problems. Other noteworthy projects he worked on are real-time 3D scanning with mobile devices (2013), a real-time pipeline for 3D reconstruction of cities from vehicle mounted-cameras (2007), camera-based self-driving cars and the first fully autonomous vision-based drone (2012). Most recently his academic research has focused on combining 3D reconstruction with semantic scene understanding.
Marc Pollefeys
Professor, ETH Zurich
张皓(Richard Zhang)
Professor, Simon Fraser University
Title: Discovering the Right Representations for 3D Vision
Bio: Hao (Richard) Zhang is a professor in the School of Computing Science at Simon Fraser University, Canada. He is a Fellow of the IEEE, holds a Distinguished University Professorship, and is an Amazon Scholar. Richard earned his Ph.D. from the University of Toronto, and MMath and BMath degrees from the University of Waterloo. His research is in computer graphics and visual computing with special interests in geometric and generative modeling, shape analysis, 3D vision, geometric deep learning, as well as computational design and fabrication. Awards won by Richard include a Canadian Human-Computer Communications Society Achievement Award in Computer Graphics (2022), a Google Faculty Award (2019), an NSERC Discovery Accelerator Supplement Award (2014), and a Best Dataset Award from ChinaGraph (2020). He and his students have won the CVPR 2020 Best Student Paper Award and Best Paper Awards at Symposium on Geometry Processing 2008 and CAD/Graphics 2017. Richard has served as an editor-in-chief for Computer Graphics Forum (2014-2018), the Technical Papers Assistant Chair for SIGGRAPH Asia 2024, paper co-chairs for SGP 2013, GI 2015, and CGI 2018, and a conference chair for International Geometry Summit 2019. Richard is the Technical Papers Chair for SIGGRAPH 2025.
张皓(Richard Zhang)
Professor, Simon Fraser University
Kristen Grauman
Professor, UT-Austin
Title: 4D Activity Understanding in Egocentric Video
Bio: Kristen Grauman is a Professor in the Department of Computer Science at the University of Texas at Austin.  Her research in computer vision and machine learning focuses on visual recognition, video, and embodied perception.  Before joining UT-Austin in 2007, she received her Ph.D. at MIT.  She is an IEEE Fellow, AAAS Fellow, AAAI Fellow, Sloan Fellow, and recipient of the 2013 Computers and Thought Award.  She and her collaborators have been recognized with several Best Paper awards in computer vision, including a 2011 Marr Prize and a 2017 Helmholtz Prize (test of time award).  She has served as Associate Editor-in-Chief for PAMI and Program Chair of CVPR 2015, NeurIPS 2018, and ICCV 2023.
Kristen Grauman
Professor, UT-Austin
David Forsyth
Professor, UIUC
Title: What do image generators know?
Bio: I am currently Fulton-Watson-Copp chair in computer science at U. Illinois at Urbana-Champaign, where I moved from U.C Berkeley, where I was also full professor.  I have occupied the Fulton-Watson-Copp chair in Computer Science at the University of Illinois since 2014. I have published over 170 papers on computer vision, computer graphics and machine learning. I have served as program co-chair for IEEE Computer Vision and Pattern Recognition in 2000, 2011, 2018 and 2021, general co-chair for CVPR 2006 and 2015 and ICCV 2019, program co-chair for the European Conference on Computer Vision 2008, and am a regular member of the program committee of all major international conferences on computer vision.  I have served six years on the SIGGRAPH program committee, and am a regular reviewer for that conference. I have received best paper awards at the International Conference on Computer Vision and at the European Conference on Computer Vision. I received an IEEE technical achievement award for 2005 for my research.  I became an IEEE Fellow in 2009, and an ACM Fellow in 2014.  My textbook, "Computer Vision: A Modern Approach" (joint with J. Ponce and published by Prentice Hall) is now widely adopted as a course text (adoptions include MIT, U. Wisconsin-Madison, UIUC, Georgia Tech and U.C. Berkeley).  A further textbook, “Probability and Statistics for Computer Science”, is in print; yet another (“Applied Machine Learning”) has just appeared.   I have served two terms as Editor in Chief, IEEE TPAMI.  I have served on a number of scientific advisory boards.
David Forsyth
Professor, UIUC
Yasuyuki Matsushita
Sr. Director, Microsoft Research Asia - Tokyo
Title: Making sense of the real-world via 3D Computer Vision
Bio: Yasuyuki Matsushita is a Senior Director of Microsoft Research Asia - Tokyo since 2024. He received his B.S., M.S. and Ph.D. degrees in EECS from the University of Tokyo in 1998, 2000, and 2003, respectively. From April 2003 to March 2015, he was with Visual Computing group at Microsoft Research Asia. From April 2015 to September 2024, he was a Professor at Osaka University. His research area includes computer vision, machine learning and optimization. He is an Editor-in-Chief of International Journal of Computer Vision (IJCV) and is/was on editorial board of IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), The Visual Computer journal, IPSJ Transactions on Computer Vision Applications (CVA), and Encyclopedia of Computer Vision. He served/is serving as a Program Co-Chair of PSIVT 2010, 3DIMPVT 2011, ACCV 2012, ICCV 2017, and a General Co-Chair for ACCV 2014 and ICCV 2021. He has won the Osaka Science Prize in 2022. He is a Fellow of IEEE and a member of IPSJ.
Yasuyuki Matsushita
Sr. Director, Microsoft Research Asia - Tokyo
Andrea Vedaldi
Professor, University of Oxford
Title: Towards a 3D foundation of AI
Bio: Andrea Vedaldi is Professor of Computer Vision and Machine Learning at the University of Oxford, where he co-leads the Visual Geometry Group since 2012. He is also a senior research scientist and technical lead at Meta. He researches generative AI in 3D computer vision, applied to the generation of 3D content from text and images and to image understanding. He is the author of more than 200 peer-reviewed publications in computer vision and machine learning. He is the recipient of the IEEE Thomas Huang Memorial Prize, the IEEE Mark Everingham Prize, and the Test of Time Award by the ACM, and the best paper award from the Conference on Computer Vision and Pattern Recognition.
Andrea Vedaldi
Professor, University of Oxford
Marc Pollefeys,Professor, ETH Zurich
Bio: Marc Pollefeys is a Professor of Computer Science at ETH Zurich and the Director of the Microsoft Spatial AI Lab in Zurich where he works with a team of scientists and engineers to develop advanced perception capabilities for AI assistants and robotic agents. He is a Fellow of IEEE, ACM, AAIA and ELLIS, as well as a member of the Academia Europaea. He obtained his PhD from the KU Leuven in 1999 and was a professor at UNC Chapel Hill before joining ETH Zurich.He is best known for his work in 3D computer vision, having been the first to develop a software pipeline to automatically turn photographs into 3D models, but also works on robotics, graphics and machine learning problems. Other noteworthy projects he worked on are real-time 3D scanning with mobile devices (2013), a real-time pipeline for 3D reconstruction of cities from vehicle mounted-cameras (2007), camera-based self-driving cars and the first fully autonomous vision-based drone (2012). Most recently his academic research has focused on combining 3D reconstruction with semantic scene understanding.
Title: Spatial AI to assist humans and enable robots
Abstract: In this talk we’ll discuss how to build rich 3D representations of the environment to assist people and robots to perform tasks.  We’ll first discuss how to build visual 3D maps of environments and use those for visual (re)localization, spatial data access and navigation.  We’ll cover recent methods based on geometry, learning and combining both.  One of the questions we will consider is what is best learned and where we should use explicit geometric concepts.  We’ll also discuss how to build rich 3D semantic representations that enable queries and interactions with the scene. Our approach allows open vocabulary queries by leveraging foundation models.  While these models are very powerful in recognizing arbitrary objects, there are some aspects that are still missing to enable robotic interactions.  We’ll also briefly cover some of our work on action recognition which is key in building AI assistants and could also be useful to enable robots to learn from examples.
张皓(Richard Zhang), Professor, Simon Fraser University
Bio: Hao (Richard) Zhang is a professor in the School of Computing Science at Simon Fraser University, Canada. He is a Fellow of the IEEE, holds a Distinguished University Professorship, and is an Amazon Scholar. Richard earned his Ph.D. from the University of Toronto, and MMath and BMath degrees from the University of Waterloo. His research is in computer graphics and visual computing with special interests in geometric and generative modeling, shape analysis, 3D vision, geometric deep learning, as well as computational design and fabrication. Awards won by Richard include a Canadian Human-Computer Communications Society Achievement Award in Computer Graphics (2022), a Google Faculty Award (2019), an NSERC Discovery Accelerator Supplement Award (2014), and a Best Dataset Award from ChinaGraph (2020). He and his students have won the CVPR 2020 Best Student Paper Award and Best Paper Awards at Symposium on Geometry Processing 2008 and CAD/Graphics 2017. Richard has served as an editor-in-chief for Computer Graphics Forum (2014-2018), the Technical Papers Assistant Chair for SIGGRAPH Asia 2024, paper co-chairs for SGP 2013, GI 2015, and CGI 2018, and a conference chair for International Geometry Summit 2019. Richard is the Technical Papers Chair for SIGGRAPH 2025.
Title: Discovering the Right Representations for 3D Vision
Abstract: One of the major advances in 3D vision in recent years, NeRF, has pushed the boundaries in many areas dominated by AI. Yet, its "key insight may actually simply be in the idea of a continuous volumetric representation," according to one of NeRF's authors. Despite their popularity, 3D Gaussian splatting models do not represent how our 3D worlds are built, nor would they offer the best support for robots in manipulation or collaborative tasks. CAD representations, on the other hand, are likely more suitable, considering that the robots themselves have been predominantly designed in CAD software. Unlike images or text, 3D objects are not confined to one standard representation. For many 3D vision tasks, discovering and learning the right representation is often the key ingredient for success. In this talk, I will highlight several such examples aimed at addressing some of the main challenges in 3D vision, including input sparsity, occlusion, geometric and structural variations, and mimicking human functions. Several of our works on learning multi-view, layered, structural, or motion-/interaction-aware functional representations will be covered, with applications spanning 3D vision, GenAI, and robotics. Most of these works are contributing to a concerted effort in building a foundational model for robotics, for which robotics itself can play a critical role through active 3D reconstruction. I conclude my talk with our latest work on real-time spatial reasoning by mobile robots for 3D reconstruction and navigation in dynamic scenes, trying to replicate how humans and most animals accomplish this biological feat using the internal GPS in their brains.
Kristen Grauman,Professor, UT-Austin
Bio: Kristen Grauman is a Professor in the Department of Computer Science at the University of Texas at Austin.  Her research in computer vision and machine learning focuses on video, visual recognition, and action for perception or embodied AI.  Before joining UT-Austin in 2007, she received her Ph.D. at MIT.  She is an IEEE Fellow, AAAS Fellow, AAAI Fellow, Sloan Fellow, a Microsoft Research New Faculty Fellow, and a recipient of NSF CAREER and ONR Young Investigator awards, the PAMI Young Researcher Award in 2013, the 2013 Computers and Thought Award from the International Joint Conference on Artificial Intelligence (IJCAI), the Presidential Early Career Award for Scientists and Engineers (PECASE) in 2013.  She was inducted into the UT Academy of Distinguished Teachers in 2017.  She and her collaborators have been recognized with several Best Paper awards in computer vision, including a 2011 Marr Prize and a 2017 Helmholtz Prize (test of time award).  She served for six years as an Associate Editor-in-Chief for the Transactions on Pattern Analysis and Machine Intelligence (PAMI) and for ten years as an Editorial Board member for the International Journal of Computer Vision (IJCV).  She also served as a Program Chair of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) in 2015, Neural Information Processing Systems (NeurIPS) in 2018, and IEEE International Conference on Computer Vision (ICCV) in 2023.
Title: 4D Activity Understanding in Egocentric Video
Abstract: The first-person or “egocentric” perspective offers a special window into an agent’s attention, goals, and interactions, making it an exciting avenue for the future of both augmented reality and robot learning.   This talk will describe our recent explorations for 4D first-person perception, motivated by learning about human skills from video.  Key challenges are fine-grained activity understanding and relating first- and third- (actor and observer) perspectives.  Towards addressing these challenges, we introduce new ideas for learning view-invariant video representations, dynamically selecting informative viewpoints, and anticipating behavior in 4D.  I’ll also overview how we are advancing the frontier of egocentric perception for the broader community via large-scale open-sourced datasets called Ego4D and Ego-Exo4D—multi-year, multi-institutional efforts to capture daily-life and skilled activity of people around the world.
David Forsyth,Professor, UIUC
Bio: I am currently Fulton-Watson-Copp chair in computer science at U. Illinois at Urbana-Champaign, where I moved from U.C Berkeley, where I was also full professor.  I have occupied the Fulton-Watson-Copp chair in Computer Science at the University of Illinois since 2014. I have published over 170 papers on computer vision, computer graphics and machine learning. I have served as program co-chair for IEEE Computer Vision and Pattern Recognition in 2000, 2011, 2018 and 2021, general co-chair for CVPR 2006 and 2015 and ICCV 2019, program co-chair for the European Conference on Computer Vision 2008, and am a regular member of the program committee of all major international conferences on computer vision.  I have served six years on the SIGGRAPH program committee, and am a regular reviewer for that conference. I have received best paper awards at the International Conference on Computer Vision and at the European Conference on Computer Vision. I received an IEEE technical achievement award for 2005 for my research.  I became an IEEE Fellow in 2009, and an ACM Fellow in 2014.  My textbook, "Computer Vision: A Modern Approach" (joint with J. Ponce and published by Prentice Hall) is now widely adopted as a course text (adoptions include MIT, U. Wisconsin-Madison, UIUC, Georgia Tech and U.C. Berkeley).  A further textbook, “Probability and Statistics for Computer Science”, is in print; yet another (“Applied Machine Learning”) has just appeared.   I have served two terms as Editor in Chief, IEEE TPAMI.  I have served on a number of scientific advisory boards.
Title: What do image generators know?
Abstract: Intrinsic images are maps of surface properties, like depth, normal and albedo. One usually learns methods to produce intrinsic images using various kinds of paired data; for example, image and depth. This is tricky, and may be unnecessary. I will show that image generators can be forced to produce many different lightings of the same scene. But if an image generator can relight a scene, it likely has a representation of depth, normal, albedo and other useful scene properties somewhere. I will show strong evidence that depth, normal and albedo can be extracted from two kinds of image generator, with minimal inconvenience or training data. Furthermore, all these intrinsics are much less sensitive to lighting changes. This suggests that the right way to obtain intrinsic images might be to recover them from image generators. It also suggests image generators might "know" more about scene appearance than we realize. I will show that there are important scene properties that image generators very reliably get wrong. These include shadow geometry and perspective geometry. Similarly, video generators get object constancy and properties like momentum conservation wrong. Intriguing questions follow: can we re-engineer image understanding pipelines around image generators? why do image generators not “know” what they don't “know”? and what can we do about their ignorance?
Yasuyuki Matsushita,Sr. Director, Microsoft Research Asia - Tokyo
Bio: Yasuyuki Matsushita is a Senior Director of Microsoft Research Asia - Tokyo since 2024. He received his B.S., M.S. and Ph.D. degrees in EECS from the University of Tokyo in 1998, 2000, and 2003, respectively. From April 2003 to March 2015, he was with Visual Computing group at Microsoft Research Asia. From April 2015 to September 2024, he was a Professor at Osaka University. His research area includes computer vision, machine learning and optimization. He is an Editor-in-Chief of International Journal of Computer Vision (IJCV) and is/was on editorial board of IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), The Visual Computer journal, IPSJ Transactions on Computer Vision Applications (CVA), and Encyclopedia of Computer Vision. He served/is serving as a Program Co-Chair of PSIVT 2010, 3DIMPVT 2011, ACCV 2012, ICCV 2017, and a General Co-Chair for ACCV 2014 and ICCV 2021. He has won the Osaka Science Prize in 2022. He is a Fellow of IEEE and a member of IPSJ.
Title: Making sense of the real-world via 3D Computer Vision
Abstract: 3D Computer Vision is crucial for understanding and interpreting the spatial aspects of real-world scenes. It is particularly important for the coming Embodied AI, where machines need to interact with and understand their surroundings. Sensing is crucial in this context, because it generates rich, multidimensional data that enhances AI’s understanding of the world and elevates its perceptual capabilities. This talk discusses two approaches to the problem of real-world sensing, namely, learning-based and model-based approaches and explores the synergy of these approaches. In particular, we discuss the case of photometric 3D reconstruction, where we have an access to reliable physics-based models while data-driven methods are still beneficial. ">PPT下载
Andrea Vedaldi,Professor, University of Oxford
Bio: Andrea Vedaldi is Professor of Computer Vision and Machine Learning at the University of Oxford, where he co-leads the Visual Geometry Group since 2012. He is also a senior research scientist and technical lead at Meta. He researches generative AI in 3D computer vision, applied to the generation of 3D content from text and images and to image understanding. He is the author of more than 200 peer-reviewed publications in computer vision and machine learning. He is the recipient of the IEEE Thomas Huang Memorial Prize, the IEEE Mark Everingham Prize, and the Test of Time Award by the ACM, and the best paper award from the Conference on Computer Vision and Pattern Recognition.
Title: Towards a 3D foundation of AI
Abstract: The development of advanced spatial intelligence is likely to be one of the most important goals of machine learning, and computer vision in particular, in the years to come. In this talk, I will suggest that 3D computer vision, especially when combined with generative AI, is a key to improving spatial awareness in future AIs. I will illustrate this point by showcasing some of the recent work done by my teams at the University of Oxford and Meta. First, I will introduce VGGT, the first neural network that can, in many cases, outperform traditional techniques for 3D reconstruction, operating in a fast, robust, and general manner. I will then discuss the concept of Dynamic Point Maps as a way of extending 3D reconstruction to the time dimension, thus representing dynamic 3D content. Finally, I will show how 3D generative AI can help us to capture priors on the structure of the 3D world, from individual object parts with PartGen to fully immersive 3D worlds with SynCity.
- 3DV战略论坛 -
- 主持人: 刘烨斌(清华)、刘子纬(南洋理工) -
陈宝权,北京大学
作者简介:陈宝权,北京大学博雅特聘教授、智能学院副院长、IEEE Fellow、中国计算机学会会士和中国图像图形学学会会士,入选国际电气电子工程师学会可视化与国际计算机学会图形学名人堂 — IEEE Visualization Academy和ACM SIGGRAPH Academy。研究领域为计算机图形学、三维视觉与可视化,多次获得国际会议最佳论文奖,包括SIGGRAPH Asia 2022、SIGGRAPH 2022 (Honorary Mention)和IEEE Visualization 2005等。曾担任973项目“城市大数据计算理论与方法”首席科学家,主持国家重点研发计划“科技冬奥”重点专项和“新一代人工智能” 重大项目。担任Int’l Conf on 3D Vision指导委员会委员,曾任 ACM SIGGRAPH ASIA和IEEE VIS指导委员会委员、SIGGRAPH ASIA 2014和IEEE Visualization 2005会议主席及IEEE Visualization 2004程序委员会主席,是中国三维视觉大会(China3DV)的发起人之一。任中国计算机学会(CCF)常务理事、《中国计算机学会通讯》专题主编,中国图像图形学学会常务理事、三维视觉专委会主任。曾任第七届教育部科技委信息学部委员,北京电影学院未来影像高精尖创新中心首席科学家。个人网页: https://baoquanchen.info/
报告题目: 基于可微物理的空间智能构建
报告摘要: 在AI发展的更深层次探索中,实体人工智能(Physical AI)正成为关键方向,它连接数字与物理世界,将引领新一轮的技术突破和产业变革。其中,空间智能作为机器人理解物理世界的重要桥梁,正在推动AI迈向更高阶的智能水平。空间智能的核心在于使具身智能体能够理解三维物理世界,从而适应多变环境,具备更高的自主性和灵活性,能够独立完成复杂任务。空间智能的关键核心问题是如何满足物理时空一致性和可操作性,为此,我们提出采用“可微物理”来推动空间智能的构建与发展。可微物理指的是利用可微方法建模物理世界的外观、结构、性质、状态等客观属性,并结合对智能体主观行为(如人类动作、决策方式等)的建模,实现对物理世界的精准理解与生成。我们展望,空间智能结合可微物理的技术,将极大推动机器人、自动驾驶、智能制造、服务机器人、医疗康养等行业的智能化发展。
周昆, 浙江大学
作者简介:周昆,浙江大学计算机学院教授,ACM/IEEE Fellow。2002年获浙江大学工学博士学位,2007年入选教育部长江学者特聘教授,2008年获国家杰出青年科学基金,现任浙江大学计算机辅助设计与图形系统全国重点实验室主任。研究领域为计算机图形学、计算机视觉和虚拟现实。主持国家自然科学基金创新研究群体项目和国家重大科研仪器研制项目。获得国家自然科学奖二等奖2项、陈嘉庚青年科学奖、科学探索奖、ACM SIGGRAPH Test-of-Time Award、MIT TR35 Award等国内外奖项。
报告题目: 光场建模的演变:过去、现在和未来
报告摘要: 我们的世界是一个三维领域,沉浸在不同强度的光线中,这一现象被光场函数全面捕捉。对这一函数进行建模,能够渲染出此类环境中每一个视觉可感知的元素,从而为关键的视觉和图形学应用奠定了基础,这些应用包括从图像中进行新视角合成和三维重建。光场表示的演变始于20世纪90年代初,从最初基于两个平面参数化的光场发展到依赖几何的表面光场。这些方法共同建立了一个丰富的基于图像的渲染技术分类,所有方法都需要密集的图像采集。这一范式的转变是由辐射场技术催化而成的,其中最具代表性的技术是神经辐射场(NeRFs)和三维高斯点(3DGS),它们能够从稀疏的输入中实现高质量的新视角合成。它们的成功源于开发了连续的、可微分渲染的体积场景表示方法,这有助于通过最小化合成图像与真实图像之间的差异来进行有效的优化。本次演讲将回顾光场建模的发展历程,分析前沿创新,并对这一领域的未来方向提供见解。
虞晶怡, 上海科技大学
作者简介:虞晶怡教授,OSA Fellow,IEEE Fellow,ACM杰出科学家,智能感知与人机协同教育部重点实验室主任。他于2000年获美国加州理工学院(Caltech)双学士学位,2005年获美国麻省理工学院(MIT)博士学位。现任上海科技大学讲席教授,校副教务长兼信息科学与技术学院院长。虞教授长期从事计算机视觉、计算成像、计算机图形学、生物信息学等领域的研究工作,并先后获得美国国家科学基金杰出青年奖(NSF CAREER Award),美国空军研究院杰出青年奖 (AFOSR YIP Award),白玉兰纪念奖。在智能光场研究上,他拥有十余项国际PCT专利,已广泛应用于智慧城市、数字人、人机交互等场景。他曾经担任IEEE TPAMI、IEEE TIP等多个顶级期刊编委,并担任国际人工智能顶会CVPR 2021和ICCV 2027的程序主席、ICCV 2025的大会主席。他是达沃斯世界经济论坛(WEF)“全球议程理事会”理事。
报告题目: 从牛顿到拉图尔——迈向物理与社会可解释的三维生成
报告摘要: 近年来,三维生成技术在视觉逼真度方面取得了显著进展,能够创建高度详细的虚拟环境和物体。然而,尽管有这些进步,当前系统在产生物理合理性交互方面仍面临重大限制,尤其是当场景中的多个物体或部件相互作用时。这些限制表现在不真实的运动、碰撞检测错误以及缺乏真正的物体间动力学,从而削弱了三维模拟的保真度。此外,大多数三维生成系统未能解决这些环境的社会维度,忽视了人类和非人类行为者交互的含义,未能反映现实世界的复杂性。在本次演讲中,我认为三维生成必须超越单纯的视觉逼真,拥抱物理合理性和社会意义。借鉴布鲁诺·拉图尔的行动者网络理论,我们提出一个框架,将物理定律和社会构建整合到三维生成过程中,从而实现更丰富、更有意义的交互空间表示。我们最近的工作重点是将这两种双重原则——物理和社会交互——嵌入生成模型,为创建既物理连贯又社会相关的三维环境提供更全面的方法。
朱军, 清华大学
作者简介:朱军,清华大学计算机系Bosch AI教授、IEEE/AAAI Fellow,曾任卡内基梅隆大学兼职教授。主要从事机器学习研究,担任国际著名期刊IEEE TPAMI的副主编,担任ICML、NeurIPS、ICLR等资深领域主席和最佳论文评审委员等。获中国青年科技奖、中国科协求是杰出青年奖、陈嘉庚青年科技奖、科学探索奖、ICLR国际会议杰出论文奖等。
报告题目: 迈向虚实融合的多模态基础模型
报告摘要: 大规模预训练模型具有很强的通用性,本报告将介绍多模态基础模型的一些新进展,包括表述时空一致性的数字内容生成、用于机器人控制的VLA基础模型等,并探讨未来的可能发展方向和关键问题。
卢策吾, 上海交通大学
作者简介:卢策吾,上海交通大学教授,长江学者特聘教授,科学探索奖获得者,2016年获海外高层次青年引进人才,2018年被《麻省理工科技评论》评为35位35岁以下中国科技精英(MIT TR35),2019年获求是杰出青年学者,2020年获上海市科技进步特等奖(第三完成人),2022年获教育部青年科学奖,IROS最佳论文之一(6/3579),2023年获机器人顶会RSS最佳系统论文提名奖(共四项),科学探索奖。以通讯作者或第一作者在《自然》,《自然·机器智能》,TPAMI等高水平期刊和会议发表论文100多篇;担任Sicence正刊,Nature子刊,Cell子刊等期刊审稿人,NeurIPS,CVPR,ICCV ,ECCV,IROS ,ICRA领域主席。研究兴趣包括具身智能,计算机视觉。
报告题目: 数字基因驱动的具身世界模型
报告摘要: 回顾过去数年人工智能的发展,AI系统已经在语义层面实现了人类级别的理解和推理能力,在互联网场景中得到广泛应用。然而,AI系统在涉及到物理世界理解与交互的具身智能场景下的应用仍然面临困难。这揭示了一个重要问题:仅依赖大模型学习到的语义层面的概念对具身应用来说是远远不够的——AI系统目前缺乏一种有效的方式来理解物理世界,以实现可靠、准确、通用的机器人操作。本研究从认知学的角度去思考物体制造与操作的过程,提出了“数字基因”的思想——通过程序化参数化的方法来对同类物体的共性与差异进行表示,为机器智能提供了可计算、无歧义、高度泛化的物理概念层面的结构化抽象表示,进而实现准确的具身世界模型估计。这次汇报会详细阐述:1)数字基因的提出背景与设计理念,2)数字基因协议,包括物体结构概念与操作功能概念,3)数字基因基础设施,包括数字基因维基,标注平台与数据集,数字基因驱动的物体合成算法,与物体-数字基因对齐算法框架,4)数字基因的优势与相关应用。
苏昊, UCSD
作者简介:苏昊博士现任加州大学圣地亚哥分校计算机科学与工程系副教授,同时也是人工智能初创企业 Hillbot 的联合创始人。他分别获得北京航空航天大学和斯坦福大学的博士学位,是深度学习领域的杰出贡献者之一,曾参与 ImageNet 的开发,并在三维几何学习和具身智能方面取得了突破性进展,其代表作包括 ShapeNet、PointNet 以及 ManiSkill。苏博士的研究成果被引用超过10万次,目前担任 CVPR 2025 大会程序主席,并曾荣获 ACM SIGGRAPH 最佳博士论文荣誉提名、ICRA 最佳论文奖及 NSF CAREER 奖等多项重量级奖项。
报告题目: 面向空间智能的三维生成式人工智能
报告摘要: 理解、推理和生成三维结构的能力是现实世界中智能体必不可少的技能。近年来,三维生成式人工智能的突破为空间智能开辟了全新领域,推动了场景重建、物体合成、机器人感知和具身人工智能等方向的发展。在本次报告中,我将介绍近年来的前沿研究,重点展示一系列提升空间理解与交互能力的创新生成模型。我会详细讨论神经隐式表示、扩散模型以及贯通三维感知与生成的多模态学习方法中的关键创新,同时介绍这些成果在机器人技术、仿真系统和增强现实等实际应用中的价值。通过这场报告,我希望能为大家呈现三维生成式人工智能的发展趋势及其对未来智能系统的重要影响。
- 三维重建论坛 -
- 主持人:杨佳琪(西工大)、郭裕兰(中大) -
刘利刚,中国科学技术大学
作者简介:刘利刚,中国科学技术大学教授,国家自然基金委“杰出青年”项目获得者。从事计算机图形学及CAD/CAE研究,已在该领域顶级期刊ACM Trans. on Graphics发表论文五十余篇。曾获中国计算机图形学杰出奖,首届Siggraph Asia时间检验奖 (Test-of-Time Award)、陆增镛CAD&CG高科技奖一等奖等奖项。任中国工业与应用数学学会几何设计与计算专业委员会 (CSIAM GDC) 主任、亚洲图形学协会(Asiagraphics)副主席、国际几何建模与处理(GMP)协会指导委员会委员。
报告题目: 基于多视点图像的高质量三维重建
报告摘要: 从多视点图像来重建和渲染3D场景在计算机图形学和计算机视觉中得到广泛的研究。本报告将介绍近几年的基于神经辐射场(NeRF)和3D Gaussian表达来重建高质量3D场景的一些工作,包括3DGS的高质量重建、对多视点图像进行保持3D一致性的编辑等。
许威威, 浙江大学
作者简介:许威威,浙江大学计算机科学与技术学院CAD&CG国家重点实验室长聘教授,教育部长江学者。曾任日本立命馆大学博士后,微软亚洲研究院网络图形组研究员, 杭州师范大学浙江省钱江学者特聘教授。主要研究方向为智能三维感知、重建和仿真。在国内外高水平学术会议和期刊发表论文100余篇,其中ACM Transactions on Graphics, IEEE TVCG、IEEE CVPR、AAAI等CCF-A类论文60余篇。获中国和美国授权专利15项。所开发的高精度、高真实感三维重建技术在先临高精度扫描仪、百度阿波罗自动驾驶仿真平台、华为河图和徐工机械远程驾驶舱、凌迪数码服装仿真中得到应用。2014年受国家自然科学基金优秀青年基金资助,主持国家自然科学基金重点项目一项。
报告题目: 三维高斯泼溅技术进展
报告摘要: 近年来,三维场景的端到端重建技术极大提升了从图像自动恢复三维表达的自动化程度,在基于图像的绘制、逆向重建等领域获得了快速的发展。该表达可通过可微绘制技术从传感器数据直接构建几何和材质的隐式表达,简化了传统场景构建技术流程,支持自由视点绘制、体积视频和全息会议等虚拟现实应用。本报告聚焦于介绍神经隐式场、3DGS在场景重建、材质计算、人体重建等三维内容构建上取得的进展进行介绍。
高盛华, 香港大学
作者简介:Shenghua Gao is an Associate Professor in the Department of Computer Science at the University of Hong Kong.Prior to joining HKU, he was a professor at ShanghaiTech University. His research interests include 3D reconstruction, image and video understanding and generation, 3D generation, AI4Science, etc. He has served as an area chair for over ten top conferences (CVPR, NeurIPS, ICCV, ACM MM, ECCV, etc.), and a publicity Chair for CVPR 2024. He also served as an associate editor for IEEE TPAMI, TMM, TCSVT, etc.
报告题目: Quest for Structured Representation for 3D Reconstruction and Generation
报告摘要: Recent advances in neural rendering, such as Neural Radiance Fields (NeRF) and 3D Gaussian Splatting (3DGS), have revolutionized 3D scene reconstruction and novel view synthesis. However, these methods often prioritize photorealistic rendering at the expense of geometric accuracy, resulting in artifacts like floaters, incomplete surfaces. To address these challenges, we argue that structured representations are critical for balancing visual fidelity with robust geometry. We first introduce 2D Gaussian Splatting (2DGS), a surfel-based framework that leverage 2DGS for geometry-aware reconstruction. Then we demonstrate its utility in autonomous driving scenarios, where 2DGS enables efficient scene editing—such as removing the cars in the scene—while preserving geometric consistency across temporal sequences. Despite these advancements, surfel-based methods alone struggle to deliver high-quality geometry for industrial applications. To bridge this gap, we propose to leverage mesh optimization and sequential token-based representation for different scenarios. For image-based 3D object generation, our mesh-centric approach can generate high quality mesh that would facilitate the subsequent editing. For CAD-compliant generation, we integrate transformer-based sequential tokenization, encoding geometric primitives as editable sequences to ensure manufacturability and semantic controllability. Together, these structured representations redefine the frontier of 3D vision: 2DGS bridges the gap between neural rendering and geometric practicality, while mesh and token-based methods unlock precision for industrial and generative tasks. These work not only advances reconstruction and editing in dynamic environments but also paves the way for scalable, physically grounded tools in autonomous systems, AR/VR, and digital manufacturing.
周晓巍, 浙江大学
作者简介:周晓巍,浙江大学长聘教授,国家级科技创新领军人才。研究方向主要为三维视觉及其在混合现实、机器人等领域的应用。作为项目负责人承担国家重点研发计划项目、国自然企业联合重点项目。近五年在相关领域的顶级期刊与会议上发表论文80余篇,多次入选CVPR最佳论文候选,成果在中船集团、中国兵器、华为、蚂蚁、商汤等头部企业的项目和产品中成功应用。曾获得浙江省自然科学一等奖,两次获得CCF优秀图形开源贡献奖,入选全球前2%顶尖科学家榜单、爱思唯尔中国高被引学者。培养学生获得CCF优博、国自然优秀学生基金。担任国际顶级期刊IJCV编委、顶级会议CVPR/ICCV领域主席,曾任图形学与混合现实研讨会(GAMES)执行委员会主席。
报告题目: 空间视频的紧致表达与高精重建
报告摘要: 空间视频(体积视频)是未来数字媒体的重要形式,可广泛应用于远程交流、文化旅游、体育直播、影视创作等领域,其背后的关键技术是对真实动态场景的高保真重建与绘制。相较于传统的网格表达,近年来兴起NeRF/3DGS等表达方法在表达能力与绘制真实感等方面展现了巨大的优势,为空间视频提供了新的技术途径,但在采集成本、重建质量、存储开销等方面仍有局限。本报告将介绍我们在空间视频的表达与重建等方面的最新工作,并简要探讨未来还需解决的技术难题。
廖依伊, 浙江大学
作者简介:廖依伊,浙江大学信电学院特聘研究员。分别于西安交通大学和浙江大学获得学士和博士学位,并在德国马普所和图宾根大学从事博士后研究。研究兴趣主要为三维视觉与沉浸式媒体编码。在TPAMI、CVPR、ICCV、NeurIPS等期刊和会议发表文章四十余篇,谷歌学术引用4800余次。获ICRA 2024最佳机器人视觉论文奖,入选2023 百度 AI 华人女性青年学者。担任3DV 2025程序主席,CVPR 2023-2025领域主席,MPEG国际标准组织高斯泼溅编码(GSC)专题组联席 组长,IEEE 视频处理与通信技术委员会(VSPC)委员。
报告题目: 面向沉浸式媒体的高效三维重建与编码
报告摘要: 近年来,以NeRF/3DGS为代表的神经渲染技术的飞速发展让照片级真实度的沉浸式媒体成为可能。然而,3DGS在重建质量、重建耗时和表征大小之间仍面临难以权衡的挑战。针对这些问题,本次报告将介绍团队在泛化重建和表征编码方面的进展,在维护质量的同时提升重建速度、降低表征大小。此外将分享在3DGS这一新型表征编码上的国际标准化探索,以期进一步推进其行业应用。
王贝贝, 南京大学
作者简介:王贝贝, 南京大学智能科学与技术学院教授,博士生导师。研究方向为计算机图形学渲染方向。曾在INRIA从事博士后研究,曾作为骨干参与Disney Infinity研发。以第一/通讯作者在ACM TOG, SIGGRAPH(Asia), IEEE TVCG, CVPR发表论文近三十篇,入选TOG封面文章三次。提出SpongeCake材质模型,应用于多个引擎中。主持国家自然科学基金面上项目、科技创新2030旗舰项目子课题及企业项目等。担任Computer Graphics Forum的副编委,担任第36届EGSR程序委员会共同主席,担任SIGGRAPH 2025 Sorting委员会委员,担任SIGGRAPH等会议程序委员会委员。
报告题目: 三维几何材质重建:从宏观到微观
报告摘要: 现实世界是丰富多彩的,包括了丰富的几何、多彩的外观和斑斓的光影。在自动驾驶、工业设计等应用中通常需要为现实世界构建真实感的三维数字世界,需要从物理世界获取几何和材质,其核心问题在于如何进行几何、材质表达,如何对几何、材质进行约束,本次报告中将介绍近两年团队在几何/材质重建方面的相关工作。
Gim Hee Lee, 新加坡国立大学
作者简介:Gim Hee Lee is currently an Associate Professor in the Department of Computer Science at the National University of Singapore (NUS). Prior to joining NUS, he was a researcher at Mitsubishi Electric Research Laboratories (MERL), USA. He obtained his PhD in Computer Science from ETH Zurich. He has served Area Chair for CVPR, ICCV, ECCV, ICLR, NeurIPS, etc. He was part of the organizing committee as a Program Chair for 3DV 2022, Demo Chair for CVPR 2023, and General Chair for 3DV 2025. He is a recipient of the Singapore NRF Investigatorship, Class of 2024.
报告题目: Learning to Perceive and Interact in Open-World 3D Environments
报告摘要: In this talk, I will discuss our efforts toward advancing perception, understanding, and interaction in open-world 3D environments. The discussion covers language-driven 3D segmentation to enable recognition and segmentation beyond fixed categories, and generalizable 3D-language feature fields that integrate vision and language for embodied tasks. Additionally, I will introduce interactive affordance learning that reasons about object functionality and articulation, and efficient open-vocabulary 3D semantic representations that are scalable and adaptable across diverse environments.
- 三维生成论坛 -
- 主持人:姚遥(南大)、汤思宇(ETHZ) -
黄其兴,University of Texas at Austin
作者简介:Qixing Huang is an associate professor with tenure at the computer science department of the University of Texas at Austin. His research sits at the intersection of graphics, geometry, optimization, vision, and machine learning. He has published more than 100 papers at leading venues across these areas. His research has received several awards, including multiple best paper awards, the best dataset award at Symposium on Geometry Processing 2018, IJCAI 2019 early career spotlight, multiple industrial and NSF awards, and 2021 NSF Career award. He has also served as (senior) area chairs of ICLR, NeurIPS, CVPR, ECCV, ICCV and sorting and technical papers committees of SIGGRAPH and SIGGRAPH Asia, and co-chaired Symposium on Geometry Processing 2020.
报告题目: Geometric Regularizations for 3D Shape Generation
报告摘要: Generative models, which map a latent parameter space to instances in an ambient space, enjoy various applications in 3D Vision and related domains. A standard scheme of these models is probabilistic, which aligns the induced ambient distribution of a generative model from a prior distribution of the latent space with the empirical ambient distribution of training instances. While this paradigm has proven to be quite successful on images, its current applications in 3D generation encounter fundamental challenges in the limited training data and generalization behavior. The key difference between image generation and shape generation is that 3D shapes possess various priors in geometry, topology, and physical properties. Existing probabilistic 3D generative approaches do not preserve these desired properties, resulting in synthesized shapes with various types of distortions. In this talk, I will discuss recent work that seeks to establish a novel geometric framework for learning shape generators. The key idea is to model various geometric, physical, and topological priors of 3D shapes as suitable regularization losses by developing computational tools in differential geometry and computational topology. We will discuss the applications in deformable shape generation, latent space design, joint shape matching, and 3D man-made shape generation. The papers I will cover in this talk include CoFie (NeurIPS 24), TutteNet (CVPR 24), ARAPReg (ICCV 21), GeoLatent (SIGA23), GenCorres (ICLR24), PDGen (ICML 24), and GPLD3D (CVPR 24).
胡瑞珍, 深圳大学
作者简介:胡瑞珍,深圳大学特聘教授,博士生导师,国家优秀青年科学基金、广东省杰出青年项目获得者。研究方向为计算机图形学,长期从事智能几何建模与处理方面的研究,发表 ACM SIGGRAPH/TOG 论文三十余篇;入选中科协青年人才托举工程;荣获亚洲图形学协会青年学者奖、全国几何设计与计算青年学者奖;担任期刊IEEE TVCG、IEEE CG&A和Computers & Graphics等国际期刊编委;担任国际会议SGP 2024/CVM 2023/SMI 2020 Technical Paper、SIGGRAPH Asia Technical Communications and Posters以及EG 2024 Short Paper程序委员会主席,连续多年担任SIGGRAPH等大会程序委员会委员;担任中国图象图形学学会智能图形专委会副主任、中国计算机学会计算机辅助设计与图形学专委会常委/副秘书长、计算机图形学与混合现实在线平台(GAMES)执委会主席。
报告题目: 紧致三维几何表达
报告摘要: 近两年NeRF、3DGS等工作的成功及其在大量领域中的广泛应用充分说明了更好的三维表达能够极大地推进一个或多个领域的发展。特别是在三维生成领域中,想要提高生成的几何质量,不仅需要更高精度、更大规模、更多样化的数据支撑,还需要准确、紧凑、结构化、深度学习友好的几何表达。SDF、Triplane、Sparse Voxel等表达都在致力于满足三维生成的任务需求,但仍然面临表征能力和紧凑性的取舍问题。本次报告将介绍一种新的参数化三维几何表达,通过一组无序的参数化曲面来表示物体的几何形状,同时兼顾了高紧凑性和强表征能力,并可以直接应用到三维生成任务中,从而有效地提升生成的的几何质量和计算效率。
韩晓光, 香港中文大学(深圳)
作者简介:韩晓光博士,现任香港中文大学(深圳)理工学院助理教授。他于2017年获得香港大学计算机科学专业博士学位。其研究方向包括计算机视觉和计算机图形学等,在该方向著名国际期刊和会议已发表论文100余篇,包括顶级会议和期刊SIGGRAPH(Asia), CVPR, ICCV, ECCV, NeurIPS, ACM TOG, IEEE TPAMI等。他曾获得吴文俊人工智能优秀青年奖,广东省杰出青年基金资助,香港中文大学(深圳)青年科研奖。担任CVPR、ICCV、ECCV、NeurIPS等领域主席,Siggraph Asia 程序委员,同时也是IEEE TVCG 以及 Computer&Graphics 的编委。他的工作曾两次获得CCF图形开源数据集奖,曾两次入选CVPR最佳论文列表。
报告题目: 三维生成,敢问路在何方?
报告摘要: 2015年开始,三维深度学习被用于三维生成,当时三维视觉最热门的课题是如何利用深度学习技术从单张照片生成三维物体。从研究表达方式开始,我们看到了显式与隐式之争,点云、网格、SDF、NeRF再到3DGS;再到基于SDS优化的文生3D,Dreamfusion给我们带来了无比的惊艳;再看今朝,Rodin、Tripo、Trellis让我们见证了三维生成的繁荣。本报告将从个人过去围绕三维生成的研究经历展开,主要分享个人的感受与对未来的展望。
杨蛟龙, 微软亚洲研究院
作者简介:杨蛟龙,微软亚洲研究院首席研究员、研究经理,研究方向为三维计算机视觉、AI内容生成。2016于澳大利亚国立大学与北京理工大学获得双授博士学位后加入微软亚洲研究院,以第一作者或所指导学生为第一作者在CVPR/ICCV/ECCV/SIGGRAPH/NeurIPS/TPAMI等顶级计算机视觉与图形学会议和期刊发表论文40余篇,Google Scholar引用7000余次,多次担任CVPR/ICCV/ECCV等会议领域主席,现任顶级期刊IJCV编委。数项技术成功转化到微软产品中供广泛用户使用。获IEEE VR/TVCG 2022最佳论文奖与2025最佳论文提名奖、2017年中国图形图像协会优秀博士论文奖(全国4篇)。
报告题目: 基于结构化潜变量的三维物体生成大模型
报告摘要: 我们提出一种用于多功能和高质量3D资产创建的新型3D生成方法。其核心是一个统一的结构化潜变量表示,允许解码到不同的输出格式,如辐射场、3D高斯和网格。SLAT结合稀疏的3D体素与从强大的视觉基础模型中提取的密集多视图视觉特征,全面捕捉结构(几何)和纹理(外观)信息,同时在解码过程中保持灵活性。我们采用了与SLAT适配的校正流变换器(Rectified Flow Transformers)作为3D生成模型,并在包含50万个多样化物体的大规模3D资产数据集上训练了多达20亿参数的模型。我们的模型在文本或图像条件下生成的高质量3D资产显著超越了过去以及近期同等规模的方法。同时,我们的方法具备以前的方法所不具备的灵活输出格式选择和局部3D编辑能力。
许岚, 上海科技大学
作者简介:许岚博士,上海科技大学信息科学与技术学院助理教授、研究员、博士生导师,MARS实验室主任。他的研究方向聚焦于计算机视觉、计算机图形学和计算摄像学,致力于光场智能重建理论与技术,重点关注动静态场景重建与生成、体积视频、神经渲染、惹你他动作分析等等方向。近年来,他率团队研制了系列光场装置,相关研究成果被 ACM TOG、IEEE IJCV、IEEE TPAMI、SIGGRAPH、SIGGRAPH Asia 和 CVPR 等顶级期刊与会议收录,并在 SIGGRAPH 2024 获两项最佳论文奖荣誉提名。
报告题目: 关于三维生成的一些思考
报告摘要: 多模态生成式人工智能的发展,为高质量的动静态场景重建、渲染和生成都带来新突破,并且有望服务于未来的元宇宙或者人机交互应用。本次报告结合过去一年课题组在这些方面的科研进展,重点分享关于三维生成技术在组合、理解和交互方面的一些新思路,并且分析未来发展的问题和方向。
龙霄潇, 南京大学
作者简介:南京大学智能科学与技术学院准聘副教授,南京大学紫金学者,国家级青年人才(海外)。 2023年博士毕业于香港大学,2018年本科毕业于浙江大学。本人长期关注三维重建与生成、空间智能等方向的研究,近5年在TPAMI / CVPR / SIGGRAPH等期刊会议上发表第一作者与通讯作者论文19篇,谷歌学术总引用量2200余次,开源项目在github平台累积获得超1.4万次星标关注。在三维生成领域有SyncDreamer、Wonder3D、Craftsman3D等系列工作,其中Wonder3D工作在Github开源平台获得5000次星标关注,在Huggingface平台获15万次访问运行。
报告题目: 结构化三维内容生成
报告摘要: 近年来,扩散模型理论的突破性进展以及大规模三维数据的开源推动了三维内容生成的快速发展。从分数蒸馏采样到多视图生成,再到原生三维生成,三维生成方法的建模质量不断提升。然而,当前针对结构化三维内容的生成研究仍较为有限。本报告将介绍具备语义结构的三维几何、工业CAD模型以及规整拓扑网格等结构化三维内容的生成方法。
郭元晨, VAST
作者简介:郭元晨,哇嘶嗒科技有限公司研究负责人,2024年于清华大学获得博士学位,师从张松海副教授。郭元晨的研究兴趣主要包括三维重建、三维几何表示、三维内容生成式模型,在CVPR、ICCV、ECCV、ICLR、NeurIPS、ToG等期刊会议上发表论文三十余篇,累计被引1700+次,曾获SIGGRAPH Best Paper Honorable Mention。郭元晨持续贡献于开源社区,主导的开源项目instant-nsr-pl、threestudio、TripoSR、MV-Adapter、MIDI等在三维生成领域有着广泛的影响力,在Github收获星标累计10000+,曾获CAD&CG优秀图形开源项目奖。
报告题目: 静态三维资产生成的下半场
报告摘要: 随着三维表示方式与生成式模型理论实践的进步,静态三维资产生成的质量在过去一年中取得了飞跃性的进展。本报告将在这样的背景下,探讨静态三维资产生成如何能有更强的可用性,及背后的技术路径和发展方向。首先,面对大部分实际三维内容创作需求,现有的整体性生成导致资产缺乏结构化编辑能力,大大增加了后续人工处理的负担。针对这类实际问题,VAST研究团队分别提出了分部件三维物体生成和组合式三维场景生成策略,以可交互的方式实现了结构化的三维模型生成。为了使生成的三维资产拥有更强的视觉呈现力,研究团队提出了一种有效利用现有二维图像模型先验的方式,使其服务于高分辨率的多视角一致图像合成,进而可用于三维资产的高清贴图。最后,生成过程的实时性和可交互性一直是各类生成式模型关注的重点,我们在这方面做出了大胆的尝试,利用扩散模型蒸馏技术将三维资产的生成速度提升至可交互级别,同时引入手绘草图作为直观的用户控制信号,提供了前所未有的三维内容创作体验。
- 空间智能与世界模型论坛 -
- 主持人:崔兆鹏(浙大)、黄其兴(UTAustin) -
张兆翔,中科院自动化所
作者简介:张兆翔现为中国科学院自动化研究所模式识别实验室常务副主任,研究员、博士生导师,中国科学院大学岗位教授,中国科学院脑科学与智能技术卓越创新中心骨干,入选“教育部长江学者奖励计划”、“国家万人计划青年拔尖人才”和“教育部新世纪优秀人才支持计划”,曾获得北京市科技进步奖一等奖(排名第一)。其具体研究方向包括:视觉认知计算、类脑学习、视觉感知与理解和具身智能。探索以人形机器人、自动驾驶为代表的智能体,创新性提出感知-认知-决策-控制一体化的具身智能大模型,显著突破了当前智能理论与技术的鲁棒性、适应性、可解释性。在本领域国际主流期刊与会议上发表论文200余篇,近五年来在IEEE T-PAMI、IJCV、JMLR、IEEE T-IP、IEEE T-NN等顶级期刊与CVPR、ICCV、ECCV、NIPS、AAAI、IJCAI等顶级会议发表论文140篇,已授权发明专利25项,承担了国家自然科学基金重点项目/联合基金重点/重点国际(地区)合作研究、国家重点研发计划课题、装备部重点项目、KJW重点项目、北京市新一代人工智能重点研发项目等多项国家级科研项目和企业合作项目。
报告题目: 空间智能初探:重建、生成和推演
报告摘要: 本次报告的内容聚焦于从多种技术架构和不同的技术环节,全面地、系统地对空间智能领域进行探索,探究空间智能中的重建、生成以及推演。重建技术是对真实的世界进行复刻与孪生的核心途径,具有高自动化和高保真度的显著优势,我们提出了CityGaussian系列工作,对大规模场景实现高效高精度重建,并在同时保证渲染质量和几何精度的情况下做到可实时渲染。在探索利用生成技术构建空间场景上,我们提出了SceneX/CityX等系列工作,以多模态输入为条件,做到可生成符合物理规律和精准几何的结构化世界表达,构建出实体场景、建筑、资产,可完美融入工业管线,为未来AR/VR/虚拟场景/游戏制作等领域提供无限的可能性。在对于推演的探索上,我们提出了Driving into the Future、DriveWM等系列工作,基于视频生成模型技术,以驾驶行为为条件,越过从3D实体进行渲染的流程,直接生成多视角一致的多视图高保真度视频表达,为自动驾驶领域的规划器提供各种复杂和罕见的场景。我们还进一步探索了将重建与推演结合,提出了FreeVS和FreeSim等工作,在渲染和仿真的过程中保证了时空上的多视角一致性。我们的最终目标是打通空间智能从构建到仿真的完整闭环,打破虚拟和现实世界的界限,在构建世界时,做到在具有高保真度的多视图视频的同时,生成在几何,纹理,材质等匹配的三维实体,做到高交互性,高可编辑性,物理仿真友好。在推演世界时,做到物理上的真实性和合理性,为无人具身系统提供完美的训练场。
章国锋, 浙江大学
作者简介:章国锋,浙江大学教授,博士生导师,国家杰出青年科学基金获得者。主要从事三维视觉与增强现实方面的研究,尤其在SLAM和三维重建方面取得了一系列重要成果,开源了一系列相关系统和算法的源代码,是OpenXRLab扩展现实开源平台的主要发起人。曾获2010年CCF优秀博士学位论文奖、2011年全国优秀博士学位论文奖、2020年浙江省技术发明奖一等奖(排名第4)、2021年浙江省自然科学奖一等奖(排名第2)以及国际顶级会议ISMAR 2020唯一最佳论文奖。担任国际顶级期刊IJCV编委,以及《Virtual Reality & Intelligent Hardware》、《计算机辅助设计与图形学学报》和《中国图象图形学报》等期刊编委,中国图象图形学学会虚拟现实专委会副主任、增强现实核心技术产业联盟副理事长、浙江省人工智能学会增强现实分会副会长。
报告题目: 高效可控的三维场景生成
报告摘要: 近年来,随着大模型的快速发展,3D重建与生成技术都取得了显著进展,而且两者技术的结合可以提升生成的质量和时空一致性,已经成为一个重要的发展趋势。针对复杂场景的长距离场景生成的时空一致性问题,我们课题组最近提出了一个创新方法StarGen,将大型重建模型和视频扩散模型有机结合起来,采用滑动窗口机制逐步生成长距离场景,并通过时空约束来保证生成效果的一致性,有效克服了点云重建误差累积问题,实现了场景视频生成质量和运动控制精度的突破。根据输入的一张或多张稀疏视图,StarGen可以生成多段时空一致的长视频序列,结合三维重建与3D高斯溅射技术可以进一步生成高质量的、可供用户自由漫游的三维场景。
冯佳时, 字节跳动
作者简介:冯佳时,字节跳动豆包大模型视觉基础研究负责人,专注于多模态生成与理解大模型。在加入字节跳动之前,曾在新加坡国立大学电气与计算机工程系担任助理教授,并在加州大学伯克利分校担任博士后研究员。他的研究领域包括深度学习及其在计算机视觉中的应用。他发表了 400 多篇关于深度学习、物体识别、生成模型、机器学习理论方面的论文。曾获得 ACM MM 2012 最佳技术演示奖、TASK-CV ICCV 2015 最佳论文奖、ACM MM 2018 最佳学生论文奖。他也是 2018 年麻省理工学院技术评论亚洲 35 岁以下创新者奖获得者。曾担任CVPR、 NeurIPS、ICML、ICLR 的领域主席以及 ICMR 2017 的程序主席。
报告题目: 面向空间智能的3D基础模型:Depth Anything 系列模型
报告摘要: 本次报告中,我将介绍我们在深度估计基础模型上的探索和进展。首先,我会介绍 Depth Anything V2 深度估计模型,及其如何使用合成数据和大规模训练来提升模型泛化性,以及对细节部分的估计准确性。其次,我会介绍这个模型在视频深度估计中的拓展,重点介绍它如何在长视频上保证深度估计的一致性。最后,我会介绍 Depth Anything 可以作为一个基础模型,接受额外的 prompt 信号,来提供准确的绝对深度估计,并讨论 Depth Anything模型有潜力成为空间智能中的一个基础模型。
刘子纬, 南洋理工大学大学
作者简介:刘子纬,新加坡南洋理工大学副教授。研究领域涵盖计算机视觉、机器学习和计算机图形学,在相关领域的顶级会议和期刊上发表了大量论文,包括 CVPR、ICCV、ECCV、NeurIPS、ICLR、SIGGRAPH、TPAMI、TOG 及 Nature - Machine Intelligence。曾荣获 PAMI Mark Everingham 奖、CVPR 最佳论文奖候选、亚洲青年科学家奖、国际基础科学大会前沿科学奖以及MIT Technology Review 35岁以下亚太地区创新者等多项荣誉。此外,他还担任 CVPR、ICCV、ECCV、NeurIPS和ICLR 的领域主席,并担任 IJCV 期刊的副编辑。
报告题目: 从多模态生成模型到动态世界建模
报告摘要: 多模态生成模型是在虚拟现实中创造沉浸式体验感的关键,并且能够突破平面屏幕的界限。它不仅对于人类用户来说至关重要,对于机器人来说也是如此。此外,虚拟环境或真实世界模拟器通常由复杂的3D或4D资产构成,而生成式人工智能显著地加速了它们的创建。本次报告将介绍多模态生成模型的最新进展,包括了针对物体、虚拟形象、场景、运动等不同方面的研究,并深入探讨动态世界模型的构建方法。
马惟九, 康奈尔大学
作者简介:马惟九,康奈尔大学助理教授,研究聚焦于三维计算机视觉与机器人学的交叉领域。致力于构建能够理解、重建和仿真动态物理世界的人工智能系统,并通过这些技术赋能更强大的自动化系统,以及推动娱乐应用的发展。他的研究成果曾受到WIRED、DeepLearning.AI、MIT News等知名媒体的广泛报道。在加入康奈尔大学之前,他曾在UberATG及Waabi担任高级研究科学家,并在自动驾驶与仿真技术领域贡献了超过15项专利。马惟九在麻省理工学院(MIT)获得电气工程与计算机科学(EECS)博士学位,在卡耐基梅隆大学(CMU)获得机器人学硕士学位。
报告题目: 走向可交互与可操作的数字孪生
报告摘要: 逼真、可交互且高度细节化的虚拟物理环境的自动化创建,为诸多领域提供了巨大的潜力与机遇。对于游戏开发者而言,这项技术能够以流水线式的自动化流程来取代繁重的人工操作;对于机器人而言,这项技术能够在细节丰富的虚拟空间中进行自主系统的训练与评估,从而实现更加安全和可扩展的学习范式。本次报告将重点介绍关于数字孪生体构建的最新研究进展——这些孪生体在视觉呈现、几何精度与物理属性上均实现了真实世界对象的高保真复现。
戴勃, 香港大学
作者简介:戴勃,研究兴趣是生成式人工智能及其在内容创作、空间智能、互动娱乐等方向中的实际应用,代表性工作包括AnimateDiff、CityNeRF、Scaffold-GS等。云梧智能创始人,香港大学助理教授。谷歌引用超9800次,担任NeurIPS 2025的领域主席,及IET Computer Vision的副编辑。曾担任NeurIPS2024和AAAI2021的领域主席。
报告题目: 面向物理逼真的人与场景交互仿真
报告摘要: 空间智能强调和空间的交互,因此Sim2Real需要能够进行物理可信的人景交互。本次报告我将介绍我们从人和景两个角度在这个方向上的探索。从景的角度,基于近期热门的3D-GS表征,我们提出了GauSim,一种能够同时建模弹性物体写实形象和物理动态的方法。GauSim利用连续介质力学将Gaussian Kernel视为连续介质,从而可以显式的使用质量和动量守恒作为约束,保证了动态仿真的物理可信度。从人的角度,我们希望不同的交互任务可以被统一的一个policy处理,因此提出了TokenHSI。TokenHSI的核心是在训练阶段使用掩码机制让同一个网络可以学习不同的交互任务,并在推理时有效的泛化到不同的任务及它们的组合上。
杨睿刚, 上海交通大学
作者简介:杨睿刚,上海交通大学教授, IEEE fellow, 2003年于美国北卡罗莱纳大学教堂山分校获博士学位,主修计算机科学。曾任美国肯塔基大学计算机系终身教授, 百度研究院机器人和自动驾驶实验室主任, 嬴彻科技CTO, 杨睿刚博士在包括IJCV、IEEE T-PAMI、SIGGRAPH、CVPR、ICCV在内的计算机视觉和图形学领域顶级期刊和会议上发表论文150 余篇,Google Scholar引用超过两万次,H 指数74.
报告题目: 面向软物体操控的空间与物理智能:更优的感知与仿真
报告摘要: AI 面临的一个巨大障碍是数据问题,尤其是在涉及物体和环境操作的具身 AI 领域,收集与文本规模相当的交互数据非常困难。因此,许多研究人员试图通过仿真数据来缓解这一问题。然而,在许多具身 AI 任务中,仿真与真实场景之间的领域差距仍然难以克服。与纯仿真不同,我们探索了 Real2Sim2Real 的路径,即通过捕获真实世界的数据,在仿真中将其虚拟化以生成多种变体,然后将学习到的策略应用于现实世界。这种方法既保留了现实世界的真实性,又能够利用仿真生成多样性。我们特别关注柔软/可变形物体(例如布料)的捕获与仿真。我将介绍新的传感器设计以及精确且完全可微分的仿真技术,并展示一些初步成果。
王程,厦门大学
作者简介:王程,厦门大学南强重点岗位教授,国家级人才计划基金获得者,入选国家“万人计划”科技创新领军人才。是现任福建省智慧城市感知与计算重点实验室主任。研究兴趣包括计算机三维视觉,激光雷达,遥感智能处理,空间大数据分析,智慧城市。在Nature Communication,ISPRS-JPRS,IEEE TGRS,CVPR,NeurIPS等顶级期刊和会议上发表300余篇论文,被引用超过14000次。
报告题目: 激光雷达感知定位进展与城市空间智能的思考
报告摘要: 激光雷达视觉定位技术正从实验室验证向城市级规模应用推进,其核心突破体现在大范围场景建模效率与复杂环境鲁棒性的双重提升。这个报告将介绍该领域的新进展:首先是LightLoc框架通过解耦式训练架构(冻结编码器+动态回归器),实现城市级场景的定位智能快速构建,并将新场景建模效率提升50倍。其次,“单点感知”到“全域认知”的升级路径已清晰显现,抗干扰感知框架强化了局部动态目标的检测鲁棒性,持续域扩展(ConDo)、无监督跨场景迁移等方法,推动激光雷达感知突破局部坐标束缚。报告还将讨论城市道路体系的空间智能构建,提出“定位-预测-导航”的递进逻辑: (1)基础层(定位):在GNSS拒止场景(如隧道、楼宇群、干扰)中,以激光雷达视觉定位为核心,融合多源感知(如4D雷达点云去噪、语义蒸馏)形成冗余定位体系。结合优化深度里程计实现大范围视觉定位。(2)认知层(预测):空间智能需突破几何感知的局限,通过隐式表达的网络结构,实现对空间场景的预测,为场景演化提供“空间想象力”。(3)决策层(导航):将传统基于局部坐标系的目标检测,升级为全局坐标的交通态势提取,实现道路拓扑理解与行为意图推理,支撑车路协同的导航和规划等决策。
- 从数字人到人形机器人论坛 -
- 主持人:何天字(微软)、徐凯(国防科大) -
薄列峰,阿里巴巴XR实验室
作者简介:薄列峰博士 2022 年 8 月加入阿里巴巴,担任通义实验室 XR 团队负责人,致力于研究数字人、数字孪生、多模态大模型等前沿技术。他于 2007 年获西安电子科技大学博士学位,2007-2012 年期间先后在芝加哥大学丰田研究院和华盛顿大学从事博士后研究。薄博士于 2013 年 8 月加入亚马逊,担任 Principal Applied Scientist,负责 Amazon Go 无人零售店 AI 算法的研发与落地。他于 2017 年 10 月加入京东集团,担任京东科技 AI 实验室首席科学家。薄博士在 Neurips、CVPR、ICCV、ICML、AAAI、ICRA、IJCV 等国际顶级会议和期刊共计发表论文 100 余篇,论文被引用超 13000 次,H 指数 53,其中博士论文荣获全国百篇优秀博士论文奖,RGB-D 物体识别论文荣获机器人顶级会议 ICRA 最佳计算机视觉论文奖,担任过多个顶级人工智能会议程序委员会委员。
报告题目: 数字人和世界模型
报告摘要: 本报告分为两部分。第一部分提出了数字人和世界模型的统一算法框架,以该框架为指导,我们实现了Emote Portrait Alive 2,Animate Anyone 2,OmniTalker等算法,取得了行业内SOTA的性能。第二部分讨论了数字人应用,覆盖个性化、复刻、多场景、多语言、多数字人交互等,我们提供了每个方向的具体落地案例。
汤思宇, 苏黎世联邦理工学院
作者简介:汤思宇是苏黎世联邦理工学院(ETH Zürich)的助理教授。在加入ETH Zürich之前,她曾在德国马克斯·普朗克智能系统研究所担任博士后研究员,并在马克斯·普朗克信息学研究所完成博士学位,师从Bernt Schiele和Michael Black。此前,她获得了浙江大学计算机科学学士学位。她的研究成果曾获BMVC 2012和3DV 2020最佳论文奖,入围CVPR 2021和CVPR 2022最佳论文提名,并在ICRA 2023获人机物理交互领域最佳论文最终提名。
报告题目: 构建人体基础模型:我们需要什么样的数据?
报告摘要: 在这次报告中,我会分享我们关于人体基础模型的探索和思考。我会讨论我们如何推动3D任务和视频建模,去捕捉人体动态、人与物体的交互,以及复杂行为的预测。同时,我也会介绍我们目前的一些进展,讨论遇到的挑战,并重点说明实现开放世界泛化需要的数据规模和类型。
徐枫, 清华大学
作者简介:徐枫,清华大学软件学院长聘副教授,博士生导师。研究方向包括人工智能、虚拟/增强现实、智慧医疗等。相关工作发表在Nature Medicine, Lancet Digital Health, NEJM AI, Cell Reports Medicine, PRL,ACM SIGGRAPH, CVPR等国际权威期刊和会议上。担任CCF A类期刊IEEE TVCG编委,会议SIGGRAPH、SIGGRAPH Asia程序委员,ICCV领域主席,担任中国电子学会虚拟现实分会副主任委员。获得教育部、中国电子学会、中国图象图形学学会技术发明一等奖。(主页:http://xufeng.site)
报告题目: 数字人中的物理
报告摘要: 随着Diffusion Model、 3DGS等技术的发展,2D和3D数字人合成在视觉质量、完整性、视角一致性等方面都取得了显著的进步。然而,物理正确性仍然是数字人生成中的难题,也是数字人与人形机器人之间的技术鸿沟。本报告介绍在数字人研究中使用物理、重建物理的相关工作,希望启发读者从不同角度思考物理在数字人技术中的意义与作用,为更真实的数字人和数字人真实化(人形机器人)探索新的可能性。
刘利斌, 北京大学
作者简介:刘利斌,北京大学智能学院助理教授,博雅青年学者。博士毕业于清华大学,后曾于加拿大不列颠哥伦比亚大学(The University of British Columbia)及美国迪士尼研究院(Disney Research)进行博士后研究,以及美国硅谷创业公司DeepMotion Inc.担任首席科学家。入选国家级青年人才项目。研究领域为计算机图形学与具身智能,特别是面向数字人和人形机器人等具身智能体的动作仿真与控制,以及相关的物理仿真、机器学习、强化学习等领域。曾获得 SIGGRAPH Asia 2022 最佳论文奖、SIGGRAPH 2023 最佳论文荣誉提名等奖项。他曾多次担任图形学领域重要国际会议如SIGGRAPH (North America/Asia)、EG、PG、SCA等的论文程序委员,并担任IEEE TVCG 编委。
报告题目: 面向大模型的动作基础模型与交互
报告摘要: 灵活多样的动作与自然流畅的交互行为,是数字人和人形机器人的基本能力,同时也是重要的研究挑战。近年来,随着深度强化学习与生成模型技术的快速发展,从真人动作示例中学习并生成运动控制策略的方法受到了越来越多的关注。同时,随着以大语言模型为代表的大模型技术迅速兴起,将大模型的强大表达能力应用于动作生成与交互控制领域,已成为当前研究的重要趋势。如何高效地表达复杂动作,如何精准有效地控制动作生成,如何建立通用的动作基础模型,以及如何实现动作模型与大模型的有效融合,是该领域亟待解决的核心问题。本次报告将围绕以上问题,介绍我们在跨模态驱动的数字人肢体动作生成方面的最新研究成果,包括基于离散表征的动作表达方法、大规模动作生成模型的训练策略、动作基础模型的构建方法,以及结合多模态信息与大型语言模型的动作生成与交互技术。
宋杰, 苏黎世联邦理工大学
作者简介:宋杰博士毕业于苏黎世联邦理工大学,目前是香港科技大学(广州)的助理教授。他长期致力于计算机视觉、机器人技术和人机交互的研究。曾获得高通创新奖学金提名、ICCV博士生研讨会奖以及3DV最佳论文奖等荣誉。此外,宋杰博士多次担任计算机视觉和机器人顶级会议的领域主席,并将担任3DV 2025大会的主席。
报告题目: 从手物交互生成到机器人灵巧手操作
报告摘要: 人类的手具有非凡的灵巧性,使我们能够无需特定技能就能与各种物体无缝交互。对这种交互进行建模和生成在动画、增强/虚拟现实、人机交互,尤其是智能机器人技术等多个领域中具有重要潜力。在此次演讲中,宋杰博士将介绍他们实验室在灵巧操作方面的研究,包括如何在不依赖任何真实数据的情况下,通过物理仿真和强化学习合成多种物体的大规模抓取动作,以及如何利用这一学习框架赋予机器人灵巧手以通用的抓取功能。
弋力, 清华大学
作者简介:弋力博士现任清华大学交叉信息研究院助理教授,国家优青(海外)。他在斯坦福大学取得博士学位,导师为美国三院院士Leonidas J. Guibas教授,毕业后在谷歌研究院任研究科学家。他近期的研究聚焦于三维视觉与具身智能,他的研究目标是赋予机器人理解并与三维世界交互的能力。他在计算机顶级会议期刊上已发表论文七十余篇,引用数两万余次,代表作品包括ShapeNet Part,SyncSpecCNN,PointNet++等,大大影响了三维深度学习这一领域的出现与发展。此外他还曾担任CVPR、IJCAI、NeurIPS等顶会的领域主席与SIGGRAPH TPC等。
报告题目: 从人类运动中学习多样化的人形机器人交互技能
报告摘要: 赋予人形机器人多样化的场景交互能力一直是具身人工智能研究中的重要目标。然而,人形机器人的动力学复杂性、高维感知与控制需求以及欠驱动特性,使得技能学习面临巨大挑战。现有基于任务的强化学习或模型预测控制方法往往局限于特定场景和任务,限制了系统的交互能力,难以满足通用交互技能的需求,形成了显著的研究缺口。为应对这一挑战,团队提出了一种基于跨本体追踪控制范式的学习方法,通过利用人类运动数据,赋予人形机器人更为广泛的交互能力。本次报告将重点展示该方法在多场景、多任务交互中的应用潜力。
庞江淼, 上海人工智能实验室
作者简介:庞江淼,上海人工智能实验室青年科学家,具身智能中心负责人,研究方向为机器人学习、多模态学习、具身智能,目标构建一体可泛化的具身通用人工智能系统。在 TPAMI、IJCV、CVPR、CoRL 等计算机视觉与机器人学习领域顶级期刊与会议发表论文 40 余篇,谷歌学术被引 12000 余次,相关系列开源项目在 GitHub 累计星标 40000 余次,被产学界广泛使用。他曾获得 CVPR 2023 最有影响力论文,ECCV 2024 最佳论文候选等荣誉。
报告题目: 可泛化人形机器人运动控制与移动操作
报告摘要: 近年来,人形机器人运动控制算法取得了显著进展。本报告将系统性地介绍如何通过整合多模态感知信息与深度强化学习技术,实现人形机器人在复杂地形下的鲁棒运动控制与移动操作。报告涵盖的系列算法包括:基于内模控制的足式运控方法HIM,全身运动控制方法HugWBC,自主起立策略HoST,感知-运动融合方法PIM、VB-Com,走梅花桩策略BeamDojo,以及人形机器人驾驶舱HOMIE。这些方法共同构成了人形机器人从“盲走”到全身控制、感知-运动融合再到移动操作的技术体系,为推动人形机器人在实际场景中的应用提供了重要支撑。
- 具身智能论坛 -
- 主持人:马月昕(上科大)、马惟九(康奈尔) -
马利庄,上海交通大学
作者简介:马利庄,上海交通大学特聘教授,人工智能研究院副院长,华东师范大学特聘教授。他是中国图象图形学学会理事、会士、数字娱乐与智能生成专委会主任,计算机学会CAD&CG专委会副主任,人工智能学会理事。马教授是国家杰出青年基金(1996),上海市科技进步特等奖(第一完成人)、一等奖、二等奖,中国青年科技奖,国家教育部科技进步二等奖,吴文俊人工智能自然科学奖一等奖,CSIG科技进步一等奖;国家“百千万人才工程”(国家级)首批人选(1997);国务院特殊津贴获得者。马教授在国内外重要学术刊物上发表论文500多篇,包括一系列IEEE TPAMI、TIP、CVPR等顶级论文,在跨媒体智能处理、人体姿态估计、3D场景分析与理解等方向取得一系列创新性成果,提出复杂场景人物行为关联视觉理解与表达新范式。
报告题目: 基于思维链的空间场景多步认知推理
报告摘要: 面向海量异构信息整合困难、行为意图歧义性高、动态场景理解精度不足等挑战,本报告聚焦复杂三维空间场景的深度认知与推理难题,构建“思维链”驱动的多模态融合技术框架,提出“场景-人物-行为”跨模态关联推理链路创新研究范式。攻克三维点云补全、高保真场景与物体重建、多人人体姿态估计与建模、人物行为意图预测等多项核心技术,研发基于二维Diffusion模型先验高保真度三维重建与基于拓扑几何和关键点信息的点云补全方法。未来,可广泛支撑自动驾驶、服务机器人等场景应用,形成覆盖“感知-推理-决策”的全链条技术体系,为智能体实现人类级场景认知与行为预测提供理论及实践突破。
鲁继文, 清华大学
作者简介:鲁继文,清华大学长聘教授,自动化系副主任,全国重点实验室副主任,北京市重点实验室副主任,国家杰出青年科学基金获得者,IEEE/IAPR Fellow。主要研究计算机视觉、模式识别、具身智能、人工智能安全,发表PAMI、IJCV、CVPR、ICCV、ECCV论文200余篇,获授权国家发明专利60余项,主持国家重点研发计划项目1项、国家自然科学基金重点项目3项、北京市重点项目2项,获国家级教学成果奖二等奖1项,省部级科技奖一等奖4项。担任中国仿真学会理事、视觉计算与仿真专业委员会主任,中国自动化学会专家咨询工作委员会副主任,国际期刊Pattern Recognition Letters主编,IEEE T-IP/T-MM/T-CSVT/T-BIOM编委,培养7名博士生获北京市和全国一级学会优秀博士学位论文。
报告题目: 具身智能感知与操作
报告摘要: 具身智能是人工智能与无人系统领域的研究热点,在工业、农业、服务业等有着重要的应用前景。报告将介绍具身智能感知与操作近年来的主要研究进展,包括在线场景感知、未知环境巡航、自主移动操作、轻量模型部署等方法与技术,以及在现代服务、工业制造、深海探测、低空安全等领域的应用,最后对未来发展趋势进行展望。
林倞,中山大学
作者简介:林倞,鹏城实验室具身智能研究所所长,中山大学二级教授,国家杰出青年基金获得者, IEEE/IAPR Fellow。长期从事多模态人工智能、具身学习等领域的应用基础研究,承担国家2030科技创新重大项目。获中国图像图形学会科学技术一等奖、吴文俊人工智能自然科学奖,省级自然科学一等奖;指导博士生获得CCF优秀博士论文奖、ACM China优秀博士论文奖及CAAI优秀博士论文奖。
报告题目: 具身智能:从数字空间走向物理世界
报告摘要: 智能体及具身智能是目前智能科学的前沿方向,被认为是实现通用人工智能的必经之路。其中智能体相当于与机器人的大脑(GPT-4是智能体的一种简化形式)。具身智能是进一步将智能体装上了身体,赋予智能体物理形体、感官及体验能力,使其具备通过与环境反复交互来持续学习及提升。本报告将介绍具身智能的发展趋势和动态,以及鹏城实验室基于国产化基础设施研发的具身智能若干关键技术和原型系统。
陈文拯, 北京大学
作者简介: 陈文拯,博士毕业于多伦多大学,师从Sanja Fidler教授和Kyros Kutulakos教授。 他目前在英伟达多伦多AI研究院担任研究科学家。他的研究集中在计算摄影和机器学习的交叉领域,主要探索如何利用各种成像系统的光学和物理先验知识以提高三维感知性能。他将于2024年加入北京大学王选计算机研究所担任助理教授。曾在IEEE CVPR,NeurIPS,ICLR,SIGGRAPH等领域顶级会议上发表论文二十余篇,并获得四项美国专利以及ICCP 2021 Best Poster Award。
报告题目: 开放世界的具身训练环境模拟
报告摘要:
王鹤, 北京大学
作者简介:王鹤博士是北京大学计算机学院前沿计算研究中心的助理教授和博士生导师。他同时是北京银河通用机器人公司的创始人和CTO,智源学者。他的研究目标是通过研究具身多模态大模型和人形机器人技能学习来推进通用机器人的发展。他获得蚂蚁科技奖,英特尔中国学术英才计划荣誉学者等称号,并获得2024年北京大学-中国光谷科技成果转化奖。他的论文获得ICCV2023最佳论文候选,ICRA2023最佳操纵论文候选,2022年世界人工智能大会青年优秀论文(WAICYOP)奖,Eurographics 2019最佳论文提名奖。他担任CVPR和ICCV的领域主席。在加入北京大学之前,他于2021年从斯坦福大学获得博士学位,师从美国三院院士Leonidas. J Guibas教授,于2014年从清华大学获得学士学位。
报告题目: 合成大数据驱动的具身端到端VLA大模型
报告摘要: 具身数据的昂贵和不足目前是具身智能的重要瓶颈,而高质量的合成大数据为具身端到端大模型的泛化提供了一个低成本方案。本报告以端到端操作模型GraspVLA 和 端到端导航Uni-NaVid 等系列工作为例,探讨视觉-语言-动作(VLA)大模型系统的技术突破及其泛化能力的实现。
许华哲, 清华大学
作者简介:许华哲博士现为清华大学交叉信息研究院助理教授,博导,清华大学具身智能实验室负责人。同时担任机器人创业企业星海图科技联合创始人。博士后就读于斯坦福大学,博士毕业于加州大学伯克利分校。其研究领域是具身人工智能(Embodied AI)的理论、算法与应用,具体研究方向包括深度强化学习、机器人学、基于感知的控制(Sensorimotor)等。他顶级智能机器人会议CoRL'23最佳系统论文得主,在IJRR, RSS,NeurIPS等发表顶级期刊/会议论文七十余篇,代表性工作曾被MIT Tech Review,Stanford HAI等媒体报道。曾在IJCAI、ICRA、ICLR、CORL担任领域主席/副主编。
报告题目: 具身智能中的数据难题
报告摘要: 具身智能的数据难题核心在于多模态感知-动作耦合数据的稀缺性与异构性:真实物理交互数据获取成本极高(如机器人操作需百万级闭环交互),且跨场景迁移受限;多源传感器(触觉、视觉、力觉)的数据难以获得,时空对齐与语义关联复杂度呈指数级增长,而仿真到真实(Sim2Real)的数据偏差进一步加剧模型退化。当前突破方向集中在物理启发的数据增强与因果表征学习,通过解耦环境动态性与本体控制逻辑提升数据效用。
徐凯,国防科技大学
作者简介:徐凯,国防科技大学教授,国家杰出青年基金获得者。普林斯顿大学访问学者。研究方向为计算机图形学、三维视觉、具身智能、数字孪生等。在国际上较早开展了数据驱动三维感知、建模与交互工作,提出面向复杂三维数据的结构化感知、建模与交互理论方法系统。发表TOG/TPAMI/TVCG等A类论文100余篇。担任图形领域顶级国际期刊ACM Transactions on Graphics、IEEE Transactions on Visualization and Computer Graphics的编委, Computational Visual Media的领域执行编委。多次担任领域内重要国际国内会议的大会主席和程序主席。担任中国图象图形学会三维视觉专委会副主任、中国工业与应用数学学会几何设计与计算专委会副主任。曾获湖南省自然科学一等奖2项(排名1和3)、中国计算机学会自然科学一等奖2项(排名1和3)、军队科技进步二等奖、军队教学成果二等奖、中国电子学会青年科学家奖。
报告题目: 机理-数据联合驱动的世界模型与具身交互学习
报告摘要: 在真实世界中训练具身智能机器人代价很高,因此广泛采用的做法是基于仿真环境的学习。但构建一个通用且高保真的仿真环境仍然非常困难,即便是为某个单项任务构建相应的仿真环境也是困难的。同时,为使仿真训练的策略能够Sim2Real迁移,常常需要在包括几何、结构、光照、材质、动力学等的高维空间中进行大范围采样,维数灾难问题显现。如果能对目标环境快速构建一个机理化的专用世界模型,那么只需在机理引导下,对这个模型进行小范围域随机化,即可得到对策略学习非常有帮助的仿真环境。我们考虑两种“任务无关”的方式构建目标场景的专用世界模型:一是从通用世界模型出发,通过蒸馏和面向目标环境微调得到;二是基于结构化、机理化建模,端到端可微分地学习模型参数。基于学习到的世界模型,实现了多种下游交互任务的高效学习,且因为上述世界模型本身就是目标环境的精准刻画,习得的策略可以自然地实现Sim2Real迁移。
- 影像生成论坛 -
- 主持人:周晓巍(浙大)、申抒含(自动化所) -
戴玉超,西北工业大学
作者简介:戴玉超,西北工业大学电子信息学院教授、博士生导师,国家级青年人才,研究方向为机器视觉与人工智能。主持国家自然科学基金、科技部科技创新2030“新一代人工智能”重大研究计划子课题、JKW领域基金重点项目等科研项目。近年来在TPAMI、IJCV、ICCV、CVPR、NeurIPS等国际顶级期刊和会议上发表论文70余篇,谷歌学术引用超过13000次,H因子54。获CVPR 2012最佳论文奖(大陆高校30年来首次获得该奖项)、陕西省自然科学奖一等奖、中国图象图形学学学会青年科学家奖、火箭军“智箭火眼”人工智能挑战赛全国冠军、CVPR 2020最佳论文奖提名等奖项。担任China3DV 2025大会共同主席、APSIPA杰出讲者和CVPR、ICCV、ECCV、NeurIPS等国际顶级会议领域主席。研究成果应用于航母工程、空中加油、反无人机等。
报告题目: 事件相机视觉:运动感知与生成
报告摘要: 事件相机(Event Camera)作为新型仿生视觉传感器,异步响应像素级亮度变化,突破了传统帧式相机在高速运动、高动态范围场景中的局限。事件相机在自动驾驶、机器人导航、军事国防、深空探测、高速工业检测等领域展现出巨大潜力。报告围绕课题组在基于事件相机的运动感知与生成方面的工作展开,涵盖二维与三维运动估计、长时点轨迹跟踪、运动物体跟踪与分割、视频帧生成、新视角生成等子任务,以打破现有基于帧的图像相机存在的感知瓶颈,展现事件相机在复杂动态场景下的感知与生成潜力。
张举勇, 中国科学技术大学
作者简介:张举勇,中国科学技术大学数学科学学院教授,获国家基金委优秀青年基金、中科院青促会优秀会员资助。2006年本科毕业于中科大计算机系,2011年博士毕业于新加坡南洋理工大学,2011年至2012年于瑞士联邦理工学院洛桑分校从事博士后研究。研究领域为计算机图形学、三维视觉,以实现对真实物理世界进行高效高保真三维数字化与高真实感虚拟数字内容的创建。
报告题目: StructuredField:结构化辐射场表达
报告摘要: 近年来,以NeRF、3DGS为代表的辐射场表达具有保真度高、端到端可微等优点,在物体、场景与人的重建与生成方面取得了巨大突破。然而,NeRF等隐式辐射场依赖光线追踪的密集采样导致计算资源消耗巨大,难以实现实时渲染;3DGS等显式辐射场其无序点云特性导致几何拓扑缺失,无法支持物理属性嵌入与真实物理仿真。为此,我们提出了基于四面体网格的可微辐射场表达,其结构化几何表达的特性使其同时实现了高质量几何、高保真渲染以及支持物理仿真。
高林,中科院计算所
作者简介:高林,中国科学院计算技术研究所泛在计算系统研究中心研究员、博士生导师、中国科学院大学岗位教授。在清华大学获得工学博士学位(导师:胡事民院士)。研究方向为计算机图形学、三维计算机视觉。在SIGGRAPH、TPAMI、TVCG等期刊会议发表论文100余篇,研发的人脸AIGC的APP被全球180余个国家或者地区的用户所使用。现任或者曾任GDC 大会联合程序主席,SGP 大会联合主席,China 3DV 程序委员会联合主席,SIGGRAPH 技术论文程序委员会委员,CVPR、NeurIPS 领域主席,IEEE TVCG编委,亚洲图形学学会秘书长,CSIG智能图形专委秘书长,入选国家自然科学基金委青年基金B类(原国家基金委优青),北京市杰青,英国皇家学会牛顿高级学者,曾获得亚洲图形学会青年学者奖,吴文俊人工智能优秀青年奖,CCF技术发明一等奖,CCF CAD&CG开源软件奖等奖励。
报告题目: 用户交互可控的视频生成方法研究
报告摘要: 在本次报告中,视频生成模型在快速发展,但是依然存在生成的时间较短、物理真实性不足,和可控性不强的局限性,在本次报告中,我们将探讨如何增强视频生成模型的可控性,研究如何更加满足用户交互习惯的方式下去合成视频,并将对视频生成未来的研究进行展望。
朱思语, 复旦大学
作者简介:朱思语,复旦大学人工智能创新与产业研究院研究员,长聘正教授,博士生导师。本科毕业于浙江大学,博士毕业于香港科技大学。在博士期间,他联合创立了3D视觉公司Altizure,该公司后被苹果公司收购。2017年至2023年,他担任阿里云人工智能实验室总监。自2023年起,他加入复旦大学,专注于视频和三维生成模型的研究。他已在CVPR、ICCV、ECCV、PAMI等国际会议和期刊上发表论文60余篇。
报告题目: 基于三维物理约束的交互式人像视频生成
报告摘要: 在过去几年,基于扩散和自回归的视觉生成模型过去几年取得了显著的进展。然而,相关的视觉生成结果在外观、几何、运动等真实世界的物理属性表达上仍然存在明显的局限性。此外,现有方法通常仅依赖预先给定的控制条件,缺乏有效的外部环境交互机制。为此,本讲座将探讨以三维模型作为人像视频生成的物理表征基础,以更好地刻画真实物理属性并提供端到端的交互能力。通过将三维重建与视觉生成模型相结合,期望在保留人像精细视觉品质的同时,增强对姿态、运动和环境交互的灵活性与可控性,为人像视频生成探索新的研究和应用空间。
施柏鑫, 北京大学
作者简介:施柏鑫,北京大学计算机学院视频与视觉技术研究所副所长,视频与视觉技术国家工程研究中心、多媒体信息处理全国重点实验室研究员、长聘副教授、博士生导师(“博雅青年学者”);北京智源学者。2013年博士毕业于日本东京大学,曾先后在麻省理工学院媒体实验室、新加坡科技设计大学、南洋理工大学、日本国立产业技术综合研究所从事研究工作。研究方向为计算摄像学与计算机视觉,发表论文200余篇(包括TPAMI论文26篇,计算机视觉三大顶级会议论文85篇)。论文获评IEEE/CVF计算机视觉与模式识别会议(CVPR)2024最佳论文亚军(Best Paper, Runners-Up)、国际计算摄像会议(ICCP)2015最佳论文亚军、国际计算机视觉会议(ICCV)2015最佳论文候选,获得日本大川研究助成奖(2021)、中国电子学会青年科学家奖(2024)。新一代人工智能国家科技重大专项首席科学家,国家自然科学基金重点项目负责人,国家级青年人才计划入选者。担任国际顶级期刊TPAMI、IJCV编委,顶级会议CVPR、ICCV、ECCV领域主席。APSIPA杰出讲者、CCF杰出会员、IEEE/CSIG高级会员。更多信息请访问“相机智能”实验室主页:http://camera.pku.edu.cn
报告题目: 可控的视觉内容重绘
报告摘要: 可控视觉内容重绘制旨在深入理解跨模态表示的用户指令,从而创造满足特定需求和创意表达的图像或视频。本报告将分享在可控视觉内容重绘制方面的两项进展:针对图像生成中的物理属性,设计了属性解耦框架和联合优化策略,实现了材质属性、光照条件以及语义要素属性的协同控制;针对视频生成中的时序编辑,设计了时序控制网络、草图语义注入和结构编码器,实现了对视频实例的重绘、替换、插入及移除。这些方法提升了现有扩散模型精准控制特定属性的能力,为构建可控的视觉生成模型提供了新思路。
彭祎帆, 香港大学
作者简介:Evan Y. Peng (彭祎帆),香港大学电机电子工程系与计算机科学系助理教授,斯坦福大学博士后,英属哥伦比亚大学计算机科学博士,浙江大学光电科学与工程本硕。研究兴趣为“硬件-软件协同设计”在成像、显微、显示、VRARMR等领域的应用。获AsiaGraphics Young Researcher Award、ICBS Frontiers of Science Award、IEEE VR Tech Significant New Researcher Award,担任IEEE ISMAR 2023 Conference Papers和ACM SIGGRAPH Asia 2025 XR Program主席,图形学国际期刊《Computer & Graphics》编委。发起计算光学新锐学术公众号IntelligentOptics。https://hku.welight.fun/
报告题目: 超越色彩的视野:基于学习光学的快照高光谱与RGBD成像
报告摘要: 学习成像结合了轻量化光学、编码孔径调制和专门的图像处理神经网络,近年来在快照领域特定视觉任务中引起了广泛关注。本报告介绍了两种典型的成像场景,旨在获取超越二维色彩强度的信息,即高光谱成像和RGBD成像。我们研究了一种多通道透镜阵列,并结合了按孔径优化的颜色滤光片,这些元素与图像重建网络共同优化。该配置使每个通道能够独立进行空间编码和光谱响应,从而在空间和光谱维度上提升了光学编码效果。与现有的单次衍射透镜和编码孔径技术相比,我们在光谱重建上实现了超过5dB的PSNR提升,并在多种室内外环境中恢复了多达31个光谱波段。此外,我们还探索了一种编码立体成像范式,利用立体图像和聚焦线索重建丰富纹理的彩色图像以及详细的深度图,在宽广的深度范围内实现高精度重建。在这一应用中,采用了一对二阶参数化光学元件在立体成像过程中编码垂直互补的光学信息。该深度立体成像在图像PSNR上比现有的单目和立体成像系统高出3dB,并在0.67到8米的距离范围内在高频细节的深度精度上表现出更优的性能。
刘烨斌,清华大学
作者简介:刘烨斌,清华大学自动化系长聘教授,国家基金委杰青基金获得者。研究方向为三维视觉、数字人重建与生成。发表TPAMI/ SIGGRAPH/CVPR/ICCV/ECCV等论文100余篇,谷歌学术论文引用12000余次。承担国家重点研发计划项目,担任IEEE TCVG编委,连续担任CVPR 、ICCV 、ECCV领域主席。任中国图象图形学会三维视觉专委会副主任。获2012年国家技术发明一等奖(排名3),2019年中国电子学会技术发明一等奖(排名1)。
报告题目: 时空一致人体视频生成
报告摘要: 过去一年来,视频生成大模型展现出强大的二维内容创造能力,其具备对静态场景视频生成具有初步的时空一致性,越来越多应用于3D空间生成与3D空间智能。然而对于动态场景,譬如以人为中心的动态场景,如何实现时空一致的视频场景仍然是个巨大的挑战,这种对动态场景的时空一致视频生成能力将能更好地结合三维表征,服务于4D内容生成与4D空间智能。本报告将基于以人为中心的视频生成技术,介绍报告人在动作可控性及视点可控性方面的研究成果,分析其时空一致性的多视点视频生成的性能,以及实现子弹时间视频生成的潜在可能与挑战。报告将同时给出未来结合3D表征以完成4D生成的潜在方案。
Copyright ©  China3DV 2025 中国三维视觉大会  京ICP备2022017585号-2

报告简介: 

个人简介: