TripoSR 的开发灵感来源于LRM(Large Reconstruction Models)的最新研究成果,即通过单一图像实现复杂三维结构的重建。这一突破性的图像到3D模型转换技术,旨在满足娱乐、游戏、工业设计以及建筑行业专业人士对高效3D建模工具的需求,通过快速响应输出,实现3D模型细节的精确可视化。
在性能测试中,TripoSR 在Nvidia A100硬件平台上运行仅需约0.5秒即可生成初步质量的三维网格模型,这一速度远远超越了OpenLRM等其他开源图像到三维模型转换工具。除了显著的速度优势,我们的模型还具备广泛的适用性,无论用户是否配备GPU,均可流畅使用。
TripoSR 带来了显着提高 3D 重建速度和质量的关键进步。我们的模型的特点是能够快速处理输入,在 NVIDIA A100 GPU 上不到 0.5 秒的时间内生成高质量的 3D 模型。TripoSR 在定性和定量评估方面都表现出了卓越的性能,在多个公共数据集中优于其他开源替代方案。下图通过视觉比较和指标展示了 TripoSR 相对于其他领先模型的性能。有关模型架构、训练过程和比较的详细信息可以在这份技术报告中找到。
一、TripoSR的技术剖析:
TripoSR提出了第一个大型重建模型 (LRM ) ,它可以在短短 5 秒内从单个输入图像预测对象的 3D 模型。与之前许多在小规模数据集(例如 ShapeNet)上以特定类别方式进行训练的方法相比,LRM 采用高度可扩展的基于 Transformer 的架构,具有 5 亿个可学习参数,可以直接从数据集预测神经辐射场(NeRF)。输入图像。我们在包含大约 100 万个对象的海量多视图数据上以端到端的方式训练我们的模型,包括来自 Objaverse 的合成渲染和来自 MVImgNet 的真实捕获。高容量模型和大规模训练数据的结合使我们的模型具有高度通用性,并根据各种测试输入(包括真实世界的野外捕获和生成模型的图像)生成高质量的 3D 重建。
二、TripoSR的项目地址:
1、论文地址:
https://arxiv.org/abs/2403.02151
2、Github仓库:
https://github.com/VAST-AI-Research/TripoSR
3、项目地址:
4、在线体验:
https://huggingface.co/spaces/stabilityai/TripoSR
三、TripoSR的设备要求:
操作系统:Windows 10/11 64位,显卡:8GB显存以上的NVIDIA显卡