OpenAI 文本生成 3D 模型再升级，数秒完成高质量 3D 建模-VR社区

　　近日，OpenAI 研究团队升级了 3D 生成模型，全新推出了 Shap・E，它是一个用于合成 3D 资产的条件生成式模型。目前相关模型权重、推理代码和样本已开源。

　　Shap・E 并不仅仅只是一个 3D 模型生成器，而且可以直接生成隐式函数（implicit functions）的参数，而这些参数可以渲染纹理网格（textured meshes）和神经辐射场（NeRF）。

　　这意味着在给定相同的数据集、模型架构和训练计算的情况下，Shap・E 更优于同类显式生成模型。研究者发现纯文本条件模型可以生成多样化、有趣的物体，更彰显了生成隐式表征的潜力。

　　OpenAI 展示了 Shap・E 的结果，例如一碗食物，一只企鹅，一只体素化的狗，一个篝火，一把鳄梨形的椅子等。整个图片可以在几秒内完成渲染。

　　不同于 3D 生成模型上产生单一输出表示的工作，Shap-E 能够直接生成隐式函数的参数。

　　训练 Shap-E 分为两个阶段：首先训练编码器，该编码器将 3D 资产确定性地映射到隐式函数的参数中；其次在编码器的输出上训练条件扩散模型。

　　当在配对 3D 和文本数据的大型数据集上进行训练时，该模型能够在几秒钟内生成复杂而多样的 3D 资产。与点云显式生成模型 Point・E 相比，Shap-E 建模了高维、多表示的输出空间，收敛更快，并且达到了相当或更好的样本质量。

　　虽然有诸多优势，但是Shap-E也有一定的局限性，比如它可以理解许多单个对象，但对于组合的感念认知有限；它可以产生可识别的3D资产，但资产的细节却十分粗糙。

OpenAI 文本生成 3D 模型再升级，数秒完成高质量 3D 建模