In un documento prestampato , i ricercatori Microsoft descrivono un sistema di apprendimento automatico che spiega le azioni corrette da intraprendere direttamente dalle immagini della fotocamera. È addestrato tramite simulazione e impara a navigare autonomamente in ambienti e condizioni nel mondo reale, comprese situazioni invisibili, il che lo rende adatto ai robot impiegati nelle missioni di ricerca e salvataggio. Un giorno, potrebbe aiutare quei robot ad identificare più rapidamente le persone bisognose di aiuto.
“Volevamo spingere la tecnologia attuale per avvicinarci alla capacità di un umano di interpretare i segnali ambientali, adattarsi a condizioni difficili e operare in modo autonomo”, hanno scritto i ricercatori in un post sul blog pubblicato questa settimana. “Eravamo interessati a esplorare la questione di cosa sarebbe necessario per costruire sistemi autonomi che raggiungessero livelli di prestazioni simili”.
Il framework del team separa esplicitamente i componenti della percezione (cioè, dando un senso a ciò che vede) dalla politica di controllo (decidendo cosa fare in base a ciò che vede). Ispirato dal cervello umano, mappa le informazioni visive direttamente su azioni di controllo corrette, in particolare convertendo la sequenza ad alta dimensione dei fotogrammi video in una rappresentazione a bassa dimensione che riassume lo stato del mondo. Secondo i ricercatori, questo approccio in due fasi semplifica l’interpretazione e il debug dei modelli.
Il team ha applicato la propria struttura ad un piccolo quadricoptero con una fotocamera frontale, tentando di “insegnare” una politica di intelligenza artificiale per navigare attraverso un percorso di gara utilizzando solo immagini della telecamera. Hanno addestrato l’intelligenza artificiale alla simulazione utilizzando un simulatore ad alta fedeltà chiamato AirSim, dopo di che l’hanno distribuita ad un drone del mondo reale senza modifiche, utilizzando un framework chiamato Encoder automatico variabile multimodale (CM-VAE) per generare rappresentazioni che sono strettamente collegate il divario tra realtà e simulazione.
Il modulo di percezione del sistema ha compresso le immagini in ingresso nella suddetta rappresentazione a bassa dimensione, passando da 27.648 variabili alle 10 variabili più essenziali che potrebbero descriverlo. Le immagini decodificate hanno fornito una descrizione di ciò che il drone poteva vedere in futuro, comprese tutte le possibili dimensioni e posizioni dei gate, nonché diverse informazioni di base.
I ricercatori hanno testato le capacità del loro sistema su una pista a forma di S lunga 45 metri con porte e una pista circolare lunga 40 metri con una diversa serie di porte. Dicono che la politica che utilizzava CM-VAE ha significativamente superato le politiche end-to-end e l’intelligenza artificiale che codificavano direttamente la posizione delle porte successive. Anche nonostante le “intense” distrazioni visive dalle condizioni di sfondo, il drone è riuscito a completare i corsi utilizzando il modulo di percezione cross-modale.
I coautori affermano che i risultati mostrano “un grande potenziale” per aiutare nelle applicazioni del mondo reale. Ad esempio, il sistema potrebbe aiutare un robot di ricerca e salvataggio autonomo a diventare più capace di riconoscere gli umani nonostante le differenze di età, dimensioni, genere ed etnia, offrendo al robot maggiori possibilità di identificare e recuperare le persone bisognose di aiuto.
“Separando il circuito di percezione-azione in due moduli e incorporando modalità multiple di dati nella fase di addestramento sulla percezione, possiamo evitare di adattare eccessivamente le nostre reti a caratteristiche non rilevanti dei dati in arrivo”, hanno scritto i ricercatori.
“Ad esempio, anche se le dimensioni delle porte quadrate erano le stesse nella simulazione e negli esperimenti fisici, la loro larghezza, colore e persino i parametri intrinseci della fotocamera non corrispondono esattamente.”