banner
Casa / Blog / Gli accademici di Stanford sviluppano Street View
Blog

Gli accademici di Stanford sviluppano Street View

Jul 25, 2023Jul 25, 2023

Un trio di scienziati informatici di Stanford ha sviluppato un modello di deep learning per geolocalizzare le immagini di Google Street View, il che significa che può capire in generale dove è stata scattata una foto semplicemente guardandola.

Si dice che il software funzioni abbastanza bene da battere i migliori giocatori di GeoGuessr, un popolare gioco online per indovinare la posizione.

Questo non vuol dire che il modello accademico possa individuare esattamente dove è stata scattata una foto a livello stradale; può invece individuare in modo affidabile il paese e fare una buona ipotesi, entro 15 miglia dalla posizione corretta, la maggior parte delle volte, anche se il più delle volte è più lontano di quella distanza.

In un documento prestampato intitolato "PIGEON: Predicting Image Geolocations", Lukas Haas, Michal Skreta e Silas Alberti descrivono come hanno sviluppato PIGEON.

Si tratta di un modello di geolocalizzazione delle immagini derivato dal proprio modello CLIP pre-addestrato chiamato StreetCLIP. Tecnicamente parlando, il modello è arricchito con una serie di geocelle semantiche – aree di terreno delimitate, simili a contee o province, che considerano dettagli specifici della regione come segnaletica orizzontale, qualità delle infrastrutture e segnali stradali – e ProtoNet – una tecnica per la classificazione utilizzando solo alcuni esempi.

PIGEON ha recentemente gareggiato contro Trevor Rainbolt, uno dei migliori giocatori di GeoGuessr conosciuto semplicemente come Rainbolt su YouTube, e ha vinto.

Gli esperti nel loro articolo affermano che PIGEON è il "primo modello di intelligenza artificiale che batte costantemente i giocatori umani in GeoGuessr, classificandosi nello 0,01% dei migliori giocatori". Ci è stato detto che circa 50 milioni o più di persone hanno giocato a GeoGuessr.

Alberti, un dottorando a Stanford, ha detto a The Register: "Era un po' come il nostro piccolo concorso Deep Mind", un riferimento all'affermazione di Google secondo cui il suo sistema DeepMind AlphaCode può scrivere codice paragonabile a quello dei programmatori umani.

Penso che questa sia stata la prima volta che l'intelligenza artificiale ha battuto il miglior essere umano del mondo su GeoGuessr

"​​Penso che questa sia stata la prima volta che l'intelligenza artificiale ha battuto il miglior essere umano del mondo a GeoGuessr," ha detto, sottolineando che Rainbolt ha prevalso in due partite precedenti con i sistemi di intelligenza artificiale.

La geolocalizzazione delle immagini è diventata una sorta di arte tra gli investigatori open source, grazie al lavoro di organizzazioni di ricerca giornalistica come Bellingcat. Il successo di PIGEON dimostra che è anche una scienza, che ha implicazioni significative sulla privacy.

Sebbene PIGEON sia stato addestrato a geolocalizzare le immagini di Street View, Alberti ritiene che questa tecnica possa rendere più semplice la geolocalizzazione di quasi tutte le immagini, almeno all'aperto. Ha detto che lui e i suoi colleghi hanno provato il sistema con set di dati di immagini che non includono immagini di Street View e ha funzionato molto bene.

Alberti ha raccontato una discussione con un rappresentante di una piattaforma di intelligence open source che ha espresso interesse per la loro tecnologia di geolocalizzazione. "Pensiamo che sia probabile che il nostro metodo possa essere applicato anche a questi scenari", ha affermato.

Alla domanda se questa tecnologia renderà ancora più difficile nascondere dove sono state catturate le immagini, Alberti ha detto, se ti trovi in ​​una strada, la geolocalizzazione diventerà molto probabile perché ci sono così tanti segni rivelatori di dove ti trovi.

"L'altro giorno mi è stato chiesto 'e se fossi lontano dalla strada, da qualche parte in mezzo alla natura?'", ha detto. "Anche lì, ci sono molti segnali di dove potresti essere, come sono le foglie, il cielo, il colore del terreno. Questi possono sicuramente dirti in quale paese o in quale regione del paese ti trovi, ma probabilmente non è possibile localizzare la città in particolare. Penso che le foto degli interni rimarranno probabilmente molto difficili da localizzare."

Penso che le foto degli interni probabilmente rimarranno molto difficili da individuare

Alberti ha affermato che uno dei motivi principali per cui PIGEON funziona bene è che si basa su CLIP di OpenAI come modello di base.

"Molti altri modelli di geolocalizzazione in precedenza addestravano semplicemente il modello da zero o utilizzavano un modello basato su ImageNet. Ma abbiamo notato che utilizzando CLIP come modello di base, ha visto molte più immagini, ha visto molti più piccoli dettagli, ed è quindi molto più adatto al compito."