La stima della profondità rappresenta un'importante sfida nell'ambito della computer vision ed è essenziale per una vasta gamma di applicazioni nel campo della robotica, della realtà aumentata (AR) e della realtà virtuale (VR). Ad oggi, le soluzioni esistenti spesso incontrano difficoltà nel corretto calcolo delle distanze, un aspetto cruciale per pianificare il movimento e evitare ostacoli durante la navigazione visiva.
Per cercare di risolvere questa problematica, i ricercatori di Intel Labs hanno rilasciato due modelli di intelligenza artificiale che consentono la stima della profondità da immagini monoculare: MiDaS versione 3.1 per la stima della profondità relativa e VI-Depthv versione 1.0 per la stima visivo-inerziale della profondità
MIDAS STIMA LA PROFONDIT RELATIVA
Con questa nuova versione di MiDaS, grazie ad una precisione aumentata di circa il 30%, i computer saranno in grado di eseguire una gamma più ampia di attività e di funzionare in molteplici ambienti. Ciò è reso possibile da un set di dati più ampio e diversificato.
Addestrato su ampi e diversificati set di dati di immagini, MiDaS è utile per un'ampia gamma di applicazioni, tra cui robotica, realtà aumentata (AR), realtà virtuale (VR) e visione artificiale. MiDaS è stato recentemente integrato in Stable Diffusion 2.0, un modello di diffusione latente da testo a immagine e di apprendimento automatico (open source e gratuito) in grado di restituire un’immagine dopo una richiesta sottoforma di descrizione testuale e partendo da una esistente. Stable Diffusion, arrivato recentemente anche su Android, deduce la profondità di un'immagine di input utilizzando MiDaS, quindi genera nuove immagini utilizzando sia il testo che le informazioni sulla profondità
Un altro esempio del utilizzo di questo modello sono gli ambienti VR a 360 gradi creati da Scottie Fox utilizzando una combinazione di Stable Diffusion e MiDaS. Questi esperimenti potrebbero potenzialmente portare a nuove applicazioni virtuali, tra cui la ricostruzione della scena del crimine per casi giudiziari, ambienti terapeutici per l'assistenza sanitaria ed esperienze di gioco sempre più immersive.
Con questo ultimo aggiornamento, MiDaS 3.1 consente ora la possibilità di eseguire una stima della profondità in tempo reale partendo dal feed della telecamera, cosa che potrebbe essere utile in una varietà di applicazioni nella visione artificiale e nella robotica, tra cui la navigazione e ricostruzione 3D, include nuovi modelli basati su cinque diversi tipi di trasformatori (BEiT, Swin2, Swin, Next-ViT e LeViT) ed offre un ampliamento da 10 a 12 dei set di dati di addestramento, inclusa l'aggiunta di KITTI e NYU Depth V2 utilizzando BTS split.
MiDaS 3.1 è disponibile su GitHub, dove ha ricevuto oltre 2.600 stelle dalla community.
VI-DEPHT STIMA LA PROFONDIT VISIVO-INERZIALE
Alcune applicazioni visive richiedono una profondità stimata più accurata metricamente, in cui ogni valore di profondità viene fornito in unità metriche assolute e rappresenta la distanza fisica. L'accurata stima della profondità offerta da VI-Depth può aiutare nella ricostruzione della scena, nella mappatura e nella manipolazione degli oggetti.
VI-Depth è in grado di combinare la stima della profondità basata su dati con il modello di previsione della profondità relativa di MiDaS, oltre all'unità di misurazione del sensore IMU. La combinazione di tutte questi dati consente a VI-Depth di generare una profondità metrica densa più affidabile per ogni pixel di un'immagine.
VI-Depth è disponibile con licenza MIT open source su GitHub.