由Elon Musk創(chuàng)立的人工智能初創(chuàng)公司OpenAI,為流行的DALL-E文本-圖像生成器提供支持,宣布發(fā)布其最新的圖像制作機器POINT-E,它可以直接從文本提示中生成3D點云。谷歌的DreamFusion等現(xiàn)有系統(tǒng)通常需要數(shù)小時和GPU來生成圖像,而Point-E只需要一個GPU和一兩分鐘。
3D 建模用于各種行業(yè)和應(yīng)用程序?,F(xiàn)代電影大片、視頻游戲、VR 和 AR 的 CGI 效果、NASA 的月球隕石坑測繪任務(wù)、Google 的遺址保護項目以及 Meta 的 Metaverse 愿景都取決于 3D 建模功能。然而,創(chuàng)建逼真的 3D 圖像仍然是一個耗費資源和時間的過程,盡管 NVIDIA 致力于自動化對象生成和 Epic Game 的 RealityCapture 移動應(yīng)用程序,它允許任何擁有 iOS 手機的人將現(xiàn)實世界的對象掃描為 3D 圖像。
文本到圖像系統(tǒng),如 OpenAI 的 DALL-E 2 和 Craiyon、DeepAI、Prisma Lab 的 Lensa 或 HuggingFace 的 Stable Diffusion,近年來迅速流行、臭名昭著和聲名狼藉。Text-to-3D 是該研究的一個分支。與類似系統(tǒng)不同,Point-E“利用大量(文本、圖像)對語料庫,使其能夠遵循多樣化和復(fù)雜的提示,而我們的圖像到 3D 模型是在較小的(圖像、3D)數(shù)據(jù)集上訓(xùn)練的對,”由 Alex Nichol 領(lǐng)導(dǎo)的 OpenAI 研究團隊在 Point·E 中寫道:從復(fù)雜提示生成 3D 點云的系統(tǒng), 上周發(fā)布?!盀榱烁鶕?jù)文本提示生成 3D 對象,我們首先使用文本到圖像模型對圖像進行采樣,然后根據(jù)采樣圖像對 3D 對象進行采樣。這兩個步驟都可以在幾秒鐘內(nèi)完成,并且不需要昂貴的優(yōu)化程序?!?/p>
如果您要輸入文本提示,比如“一只貓在吃墨西哥卷餅”,Point-E 將首先生成該吃墨西哥卷餅的貓的合成視圖 3D 渲染。然后,它將通過一系列擴散模型運行生成的圖像,以創(chuàng)建初始圖像的 3D、RGB 點云——首先生成粗略的 1,024 點云模型,然后生成更精細的 4,096 點云模型?!霸趯嵺`中,我們假設(shè)圖像包含來自文本的相關(guān)信息,并且沒有明確地限制文本上的點云,”研究團隊指出。
這些擴散模型分別在“數(shù)百萬”個 3d 模型上進行訓(xùn)練,所有模型都轉(zhuǎn)換為標準化格式。“雖然我們的方法在這種評估中的表現(xiàn)比最先進的技術(shù)差,”該團隊承認,“它在一小部分時間內(nèi)產(chǎn)生了樣本。” 如果您想親自嘗試一下,OpenAI 已在 Github 上發(fā)布了該項目的開源代碼。