CityGaussian算法用于渲染效果逼真且几何精度精准的大规模场景重建,提出了基于分治策略的自适应高斯辐射场划分和训练数据分配算法,支持多卡并行训练以及训练时模型压缩,训练效率高且显存消耗可控,同时不受GPU数量限制;针对表面重建算法在大规模场景下收敛效果差、训练过程不稳定的问题,基于2DGS提出了结合梯度解耦和延展率滤波器的稠密化策略,达到了SOTA的表面重建性能;此外,所提出的LoD策略使得模型在大规模场景下能够保持实时的渲染体验。本系列包含V1和V2两个工作,分别中稿ECCV2024和ICLR2025,V1在arXiv公开当日登上了科技与创业圈知名新闻网HackerNews的日热度榜榜首,在算法和模型开源后收到了超过750的Star和超过50的Fork,引用次数超75次,广受研究社区关注。
查看开源仓库
摘要:从单图重建3D数字人面临两大瓶颈:人体形态与姿态的高复杂度建模,高质量数据的匮乏。本研究从数据集、模型和3D表征维度重新思考,提出了一个从单图快速重建高保真可驱动3D人体的方法。
首先,微调一个可控姿态的单图到多视角生成模型,并生成HuGe100K数据集,含10万组多样化且高真实感的多视点人体图像。基于此,训练了一个可规模化的前馈Transformer模型--IDOL,可以从单张人体图像恢复统一高斯表征的3D人体。
该模型通过训练实现了对人体姿态与体型,几何与纹理的解耦,估计的3D人体无需后处理即可直接驱动。本模型可在单张GPU上1s内完成照片级3D人体的重建,有优异泛化性,还支持实时渲染、驱动及形状/纹理编辑任务。
查看项目详情
港科大(广州)与趣丸科技合作推出了全新三维生成大模型——Kiss3DGen,创新性地将3D生成与成熟的图像生成模型进行了对齐。并且与主流2D扩散模型技术(如ControlNet、Flux-Redux)兼容协同,无需额外训练即可即插即用。Kiss3DGen攻克了一个问题:如何让 2D 生成模型不仅限于图像和视频,而能在 3D 领域大放异彩? Kiss3DGen 是 3D 领域首个最大化利用 2D diffusion prior 的工作,彻底颠覆了传统的 3D 生成方式。2D diffusion 模型经过数十亿图像的训练,已经具备世界级知识。通过对齐 2D 知识,我们让 3D 生成更快更好,且不仅仅限于物体生成,3D 编辑,增强,个性化卡通3D形象生成也能一手搞定!Kiss3DGen 利用了 2D 世界的强大先验,通过 3D Bundle Image 完美对齐纹理和几何,实现高效且高质量的 3D 生成、编辑与增强。同时,兼容各种现有 2D diffusion 插件,如 ControlNet、Lora、Flux,即插即用!实验中,本模型不仅生成质量超越现有方法,极简设计更保证了高效实用。
诚邀大家试用:
随着Gaussian Splatting系列技术的逐渐成熟,4D空间视频的清晰度、渲染效率与文件体积等性能参数都得到了长足的进展,高质量捕捉并重建时间与空间信息的能力已经从科幻电影走向现实。在本次演示中,观众可以在VR头显里面身临其境地体验到多段武打、舞蹈等精彩表演片段,亲身感受4D空间视频这个未来媒体格式的魅力。本次演示所用到的算法原理可以参考我们的SIGGRAPH Asia 2024论文:
查看论文
RainyGS 是北京大学陈宝权教授团队最新研发的动态生成技术,通过 3DGS 的高效表面表达,融合物理仿真与实时渲染,为数字孪生世界带来物理真实的动态雨效。RainyGS 可在已重建场景中自动生成精确雨滴轨迹、水面波动以及光线反射与折射等复杂雨天现象,支持实时自由视点漫游,控制雨量、风速、水深等参数,呈现从细雨到暴雨的多样效果。同时,RainyGS 能够生成高逼真训练数据,为自动驾驶、机器人等空间智能应用提供灵活的动态交互环境,助力 Real2Sim2Real 范式的进一步突破。相关成果发表在 CVPR 2025。
TaoAvatar是一款基于3D高斯溅射技术(3DGS)的全身交互式虚拟形象解决方案。该技术通过多视角视频即可快速构建高精度3D数字人,在显著降低制作成本的同时,能完整捕捉面部微表情、手势动作,精确复现肢体运动,连服饰褶皱与发丝动态等细节都纤毫毕现。其突破性优势在于支持跨终端实时渲染,尤其在Apple Vision Pro等高端AR设备上可实现2K分辨率下90FPS的超流畅表现。该方案创新整合语音识别(ASR)、大语言模型(LLM)、语音合成(TTS)及音频驱动面部表情(Audio2BS)技术,构建出具备实时对话能力的3D数字人智能体。未来迭代版本将拓展更多应用场景,您的"数字分身"不仅能进行自然交流,还可实现舞蹈互动,甚至代您出席会议等复杂社交行为。
针对现有表示方法无法同时保证高质量的几何纹理和实时的计算效率的问题,作者定义了与图像天然对齐的全新三维几何表示——傅里叶占有率场(Fourier Occupancy Field),跨越了三维几何与二维图像之间的鸿沟,解决了高精度与高效性的矛盾,同时保证了重建的实时性、高质性、灵活性、扩展性和兼容性。进而,提出了渲染中间表示Z-Map,兼具隐式纹理场和显式神经渲染的优势,同时提出了一致性损失和空间融合策略,提高对遮挡区域颜色推断的可靠性。最终,构建了国际首个单RGB相机下高质量实时人体三维重建与渲染系统。该系统的部署成本低廉:仅使用通用USB网络摄像头和消费级GPU,即可提供消费者可访问的具有实时性能和高保真结果的沉浸式远程呈现解决方案,并可应用于虚拟现实环境。
项目主页:http://cic.tju.edu.cn/faculty/likun/projects/System
http://cic.tju.edu.cn/faculty/likun/projects/R2Human
http://cic.tju.edu.cn/faculty/likun/projects/FOF
联系方式:lik@tju.edu.cn
本系统深度融合高精度数字人建模与实时语音交互技术,打造低延迟、高保真的全息数字人交互体验。基于DeepSeek NLP引擎的智能对话功能,系统可实时驱动数字人生成自然表情、精准口型及协调肢体动作,在3090显卡上实现50fps流畅渲染与4K高清输出,响应延迟稳定控制在1-3秒。通过集成眼球追踪技术,系统动态优化渲染视角,实现裸眼3D沉浸式交互;模块化架构设计支持灵活适配虚拟客服、远程教育等多元场景,最终为用户提供兼具真实表现力与实时响应能力的下一代人机交互解决方案。
我们提供了一项基于激光雷达的大场景多人的实时动作捕捉技术,突破了传统方法的限制。相比依赖标记点、惯性传感器或摄像头的方案,我们的技术无需佩戴设备,能够在各种环境中精准捕捉人体运动轨迹,避免传感器漂移和视角限制带来的问题。该方案具备高适应性、强鲁棒性,可独立运行于单一激光雷达设备,也可结合其他传感器进行拓展,适用于动画制作、体育训练、医疗康复、机器人交互等多个领域,实现高效、精准、稳定的运动捕捉体验。
3D显示具有高逼真和强震撼等特点,颠覆了传统的2D显示。北航王琼华教授团队破解了常规视差裸眼3D显示器存在眩晕、常规光场3D显示器的分辨率和视角以及深度无法兼顾等国际难题,攻克了高密度光线光场精准调控技术和加工装配误差高精度校正技术等关键技术,成功研制出密集光场3D显示器,获得了立体观看舒适度好、图像质量高、多人裸眼观看、无需跟踪、观看视距不限、保持2D显示器形态等业界最好效果,核心指标处于国际领先水平。该光场3D显示器适用于现有2D显示器的使用范围,将成为人们生活工作的必备工具,其产业发展前景十分可观。