三维重建
三维重建技术是指利用二维投影或影像恢复物体三维訊息(形状等)的数学过程和计算机技术。
形状重建
- 自阴影重建形状(英文:shape from shading)
- 自边界重建形状(英文:shape from silhouette)
深度學習的方法
概論
因為三維的形狀比二維影像有更多資訊,因此直接從二維影像推測三維形狀對計算機而言並不是容易的工作,但對人類來說,對於生活中常見到的物體,我們常常可以從單一角度看,就可以推測經驗上物體的整個形狀(在三維空間中的樣子),人類之所以能做到這樣是因為長久經驗的累積,因此對於計算機而言,如果學習過夠多二維影像以及三維形狀的資訊,理論上也能夠做到,因此近來有不少利用深度學習的三維重建方法,利用大量的訓練資料(例如:影像以及相對應的三維形狀)來訓練深度神經網路或是卷積神經網路建構的模型,達到由單張或多張二維影像作為輸入,推測三維形狀。此外,有些大量三維模型的資料庫[1]也在近年被建立,以便於這些深度學習模型的訓練與相互比較的基礎。
體素與點雲的比較
體素與二維的像素一樣,具有規律性的排列,可以直接套用卷積神經網路,因此把現成處理二維影像的模型架構進行適當的修改,就能夠應用在三維重建的問題上。點雲則是資料點的集合,沒有規律性的排列,因此無法套用卷積神經網路,要使用其他的方法。不過體素相較於點雲有一個很大的缺點就是龐大的記憶量與運算量,對於一個立體空間,我們所在意的物件可能佔此空間的比例不大,其他部份都是空的,但體素還是要在空的地方儲存值為零。而點雲只要記錄有物體所在的點的座標就好,因此比較節省記憶體與運算量(高解析度下),也比較適合表示高解析度的三維資料。
不同類型的輸入二維資料類型
- 使用二維RGB影像作為輸入
- 使用深度圖做為輸入
不同數量的輸入影像
- 使用同一物件的單張影像作為輸入
- 使用同一物件的多張影像(由不同視角所拍攝)作為輸入
參考資料
- ShapeNet, https://www.shapenet.org/ (页面存档备份,存于)
- Learning a Predictable and Generative Vector Representation for Objects, https://arxiv.org/abs/1603.08637/ (页面存档备份,存于)
- 3D GAN, http://3dgan.csail.mit.edu/ (页面存档备份,存于)
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.