去年,人们多次尝试使用人工智能根据简单的文本输入创建3D打印模型,但结果各不相同。最著名的例子之一来自 LumaAI,您可能还记得今年早些时候 OpenAI 的这个项目。
在本文中,我们将介绍另一种基于 AI 的文本转 3D 方法,这次使用名为“Marigold”的程序,根据其网站,该程序“重新利用基于扩散的图像生成器进行单眼深度估计”。因为生成 AI 艺术是一回事,但赋予其 3D 打印所需的实际深度则是完全不同的游戏。但 Marigold 的创造者似乎就是这样做的。
什么是Marigold?
Marigold由苏黎世联邦理工学院的研究人员设计,其功能是从 2D 图像生成深度信息。Marigold 源自稳定扩散框架,利用合成数据进行微调,使其能够有效地将知识转移到不熟悉的数据中。这种方法使得 Marigold 在该领域超越了之前领先的方法 LeRes。
源数据和 Marigold 深度信息重叠。(图片来源:Marigold)
该模型的功能取决于对稳定扩散设置的 U-Net 组件的微调。该过程涉及使用原始稳定扩散 VAE 将图像和深度编码到潜在空间中,然后相对于深度潜在代码优化扩散目标。一个值得注意的方面是修改了 U-Net 的第一层以接受级联潜在代码,从而增强了深度估计能力。
在推理过程中,Marigold 将输入图像编码为潜在代码,然后与深度潜在代码连接。这种组合是通过经过修改、微调的 U-Net 进行处理的。经过几次去噪迭代后,深度潜在值被解码为图像,对其通道进行平均以得出最终的深度估计。
比较研究表明,与其他最先进的仿射不变深度估计器相比,Marigold 在室内和室外环境中都具有优越的性能。这一点尤其值得注意,因为 Marigold 在没有事先接触真实深度样本的情况下就获得了这些结果。为了全面了解 Marigold 的方法和基准,详细的论文提供了深入的(无双关语)信息。
因此,由于 Marigold 是图像转 3D 解决方案,这意味着您可以使用 AI 生成的图像作为源。这正是一位 Reddit 用户所做的事情,如下所示。
DallE 转 3D
使用 Bing 上的 DallE 文本到图像人工智能,Redditor“ fredandlunchbox ”输入提示,生成挂在墙上的具有现代功能的塑料相框的图像。
DallE 输出了您可以在下面看到的图像。
达尔E概念。(图片来源:u/fredandlunchbox)
Reddit 用户使用 Marigold 创建深度图,然后在 Cinema4D 中渲染深度图,然后在 Blender 和 Fusion360 中进行一些额外的手动整理。模型完成后,他将其导出为 STL 并打印出来。从 DallE 文本提示到最终打印的整个过程在 24 小时内完成,您可以在下图中看到最终的打印部分。
最终的 3D 打印版本。(图片来源:u/fredandlunchbox)
Reddit 用户指出,该过程不是自动的,但 Marigold 的创建者最近宣布了一项更新,“允许用户生成可供打印的防水 STL”。
这到底有多严密还有待观察,但这听起来像是在假期期间尝试的一些有趣的事情。