千鋒教育-做有情懷、有良心、有品質(zhì)的職業(yè)教育機構(gòu)

手機站

千鋒學(xué)習(xí)站 | 隨時隨地免費學(xué)

掃一掃進入千鋒手機站

領(lǐng)取全套視頻

關(guān)注千鋒學(xué)習(xí)站小程序
隨時隨地免費學(xué)習(xí)課程

由Elon Musk創(chuàng)立的人工智能初創(chuàng)公司OpenAI，為流行的DALL-E文本-圖像生成器提供支持，宣布發(fā)布其最新的圖像制作機器POINT-E，它可以直接從文本提示中生成3D點云。谷歌的DreamFusion等現(xiàn)有系統(tǒng)通常需要數(shù)小時和GPU來生成圖像，而Point-E只需要一個GPU和一兩分鐘。

3D 建模用于各種行業(yè)和應(yīng)用程序?，F(xiàn)代電影大片、視頻游戲、VR 和 AR 的 CGI 效果、NASA 的月球隕石坑測繪任務(wù)、Google 的遺址保護項目以及 Meta 的 Metaverse 愿景都取決于 3D 建模功能。然而，創(chuàng)建逼真的 3D 圖像仍然是一個耗費資源和時間的過程，盡管 NVIDIA 致力于自動化對象生成和 Epic Game 的 RealityCapture 移動應(yīng)用程序，它允許任何擁有 iOS 手機的人將現(xiàn)實世界的對象掃描為 3D 圖像。

文本到圖像系統(tǒng)，如 OpenAI 的 DALL-E 2 和 Craiyon、DeepAI、Prisma Lab 的 Lensa 或 HuggingFace 的 Stable Diffusion，近年來迅速流行、臭名昭著和聲名狼藉。Text-to-3D 是該研究的一個分支。與類似系統(tǒng)不同，Point-E“利用大量（文本、圖像）對語料庫，使其能夠遵循多樣化和復(fù)雜的提示，而我們的圖像到 3D 模型是在較小的（圖像、3D）數(shù)據(jù)集上訓(xùn)練的對，”由 Alex Nichol 領(lǐng)導(dǎo)的 OpenAI 研究團隊在 Point·E 中寫道：從復(fù)雜提示生成 3D 點云的系統(tǒng), 上周發(fā)布?！盀榱烁鶕?jù)文本提示生成 3D 對象，我們首先使用文本到圖像模型對圖像進行采樣，然后根據(jù)采樣圖像對 3D 對象進行采樣。這兩個步驟都可以在幾秒鐘內(nèi)完成，并且不需要昂貴的優(yōu)化程序?！?/p>

如果您要輸入文本提示，比如“一只貓在吃墨西哥卷餅”，Point-E 將首先生成該吃墨西哥卷餅的貓的合成視圖 3D 渲染。然后，它將通過一系列擴散模型運行生成的圖像，以創(chuàng)建初始圖像的 3D、RGB 點云——首先生成粗略的 1,024 點云模型，然后生成更精細的 4,096 點云模型?！霸趯嵺`中，我們假設(shè)圖像包含來自文本的相關(guān)信息，并且沒有明確地限制文本上的點云，”研究團隊指出。

這些擴散模型分別在“數(shù)百萬”個 3d 模型上進行訓(xùn)練，所有模型都轉(zhuǎn)換為標準化格式。“雖然我們的方法在這種評估中的表現(xiàn)比最先進的技術(shù)差，”該團隊承認，“它在一小部分時間內(nèi)產(chǎn)生了樣本。” 如果您想親自嘗試一下，OpenAI 已在 Github 上發(fā)布了該項目的開源代碼。