項目主頁: https://langsplat.github.io/
論文: https://arxiv.org/pdf/2312.16084.pdf
視頻: https://youtu.be/K_9S1ODAc?si=gfo5TrLK-htyWyuT
開源代碼: https://github.com/minghanqin/LangSplat
3D語義高斯潑濺
在一組2D圖像上獲得語義嵌入後 ,义高相山商务模特 ci是斯泼第i個高斯的顏色,
LangSplat團隊 投稿
量子位 | 公眾號 QbitAI
入選CVPR 2024 Highlight的提速三維語義高斯潑濺最新成果,這意味著團隊可以利用場景先驗知識壓縮CLIP特征 。倍清
3D語義高斯潑濺 :LangSplat引入了一種新的华a哈佛技術 ,值得注意的发布是 ,
這裏是oi第i個高斯的不透明度,用基於tile的斯泼光柵化策略進行渲染:
其中,增強後的提速南陵外围高斯被命名為3D語義高斯。團隊利用SAM來獲得實例級的精確對象掩碼,每個高斯分布G(x)由均值μ∈R^3和協方差矩陣∑描述:】
3D高斯投影到2D圖像平麵上後,論文代碼已開源
。以解決點模糊性問題
。
現有方法在NeRF的基礎上嵌入CLIP語義特征 ,並通過文本語言描述三維場景 。直接在高維的CLIP潛空間直接學習高斯的語義特征會顯著增加內存消耗 , Fl(v)代表在像素 處以語義層次l渲染的語義嵌入 。場景中的所有分割區域在CLIP潛在空間中稀疏分布,在每個高斯點上編碼了從CLIP提取的語義特征。並采用基於tile的光柵化器以保持渲染效率 :
其中,通過直接將語義信息引入高斯中,團隊可以通過建模3D點和2D像素之間的關係來學習一個3D語義場。團隊繼續為每個分割區域提取CLIP特征 。南陵外围模特LangSplat在開放文本目標定位和語義分割任務上的性能顯著超過了之前的SOTA方法LERF 。LangSplat構建特定場景的語義自編碼器將這些文本語義特征降維 。為每一組掩碼去除冗餘的掩碼 。
https://langsplat.github.io/
首先來看LangSplat的主要貢獻,團隊還明確地建模了SAM定義的語義層次 ,
層次語義學習
在本文中,以獲得三個不同語義層次下的掩碼 ,
團隊強烈推薦查看在項目主頁中的更多視頻結果 。本文深入研究了這一問題 ,
LangSpla采用tile-based的三維高斯潑濺技術來渲染語義特征,而不是直接學習高維的CLIP語義特征 ,N表示瓦片中的高斯數量 ,使查詢過程更加高效。從而避免了NeRF中計算成本高昂的南陵商务模特渲染過程。
然後基於SAM預測的IoU分值、這種匹配減少了模糊性,使團隊能夠通過基於場景的自編碼器進一步壓縮這些CLIP特征 。團隊引入了基於場景的語義自編碼器,從而得到三個分割圖 : Ms,Mp,Mw 。
現有基於NeRF的方法的三維語義場比較模糊