Lehet-e a Google "Szuper ember" neurális hálózata igazán megmondani bármilyen kép helyét?

Lifting the lid on my blackbox - how I live with depression | Martha Wiencke | TEDxMagdeburg

Lifting the lid on my blackbox - how I live with depression | Martha Wiencke | TEDxMagdeburg
Anonim

A képek keresése egyszerűbb, mint valaha. De ha valamit olyan helyről szeretnél találni, ami nem teljesen nyilvánvaló (tehát nem az egyiptomi piramisok vagy a párizsi óriás hüvelykujj szobor), akkor nehezebb, mint gondolnád - még akkor is, ha a földrajzi helymeghatározási információk alapján mi történik a képben.

Írja be a Tobias Weyand nevű Google mérnököt és egy pár kollégáját. Egy új lap a folyóiratban arXiv (kifejezett „archívum”), a trió egy mélyreható gépet épített, amely képes a szinte bármilyen fénykép helyének meghatározására, kizárólag a képpontok elemzésén alapulva.

Ahhoz, hogy egy gép sikeresen végrehajtson egy ilyen feladatot, azt szeretné, hogy egy vizuális nyomokon alapuló információt intuitálja. Azt akarod, hogy gondolkodjon, más szóval, mint egy ember.

Weyand egy mesterséges ideghálózat kifejlesztéséről szólt - egy olyan géprendszerről, amely az agy neurológiai útvonalait utánozza, amely lehetővé teszi számukra, hogy tanulhasson, dolgozzon fel és emlékezzen meg olyan információkat, mint az emberi. Ez az új rendszer, a PlaNet, nyilvánvalóan képes az embereket felülmúlni a képek helyének meghatározásánál, függetlenül attól, hogy melyik beállításról van szó - legyen az beltéri vagy kültéri, és bármilyen egyedi vagy nem-vizuális vizuális jelzéssel.

Hogyan működik a PlaNet? Weyand és csapata felosztott egy világtérképet egy rácsra, amely több mint 26 000 négyzet alakú alakzatot tett különböző régiókra attól függően, hogy hány képet készítettek ezeken a helyeken. Azok a sűrű helyek, ahol sok kép kerül elhelyezésre egy kisebb téren, míg a nagyobb, távolabbi régiók nagyobb négyzetekre vághatnak.

A csapat ezután létrehozott egy nagy adatbázist a már geolokált képekről - közel 126 millió különböző fotót. Körülbelül 91 millió adatot használtak fel a PlaNet tanítására, hogyan kell kitalálni, hogy melyik képet lehet elhelyezni a világtérképen található rácson.

Ezután a neurális hálózat feladata volt, hogy a többi 34 millió képet az adatbázisból geolokálja. Végül a PlaNet a Flickr-ből származó, 2,3 millió geotaggal ellátott kép adathalmazra lett állítva.

Az eredmények? A PlaNet a fényképek és a kontinens 28,4 százaléka 48 százalékra tudta meghatározni a származási országot. Továbbá a rendszer a Flickr képek 3,6% -ának megfelelő utcai szintű helyszínt és 10,1% -os városi szintű helyszínt határozhat meg.

És a PlaNet ennél jobb, mint a legtöbb ember - még a legnagyobb világméretű. Weyand 10 jól utazott személyt vett fel a PlaNet ellen a Google Street View-ben található képek címkézésének játékában.

„Összességében a PlaNet az 50 fordulóból 28-at nyert 1131,7 km-es medián lokalizációs hibával, míg a humán lokalizációs hiba 2320,75 km volt” - írta a kutatók. „Ez a kis léptékű kísérlet azt mutatja, hogy a PlaNet eléri az emberfeletti teljesítményt az Street View jelenetek geolokálása során.”

Ez valóságos? Valóban egy Google mérnök kifejlesztett egy „emberfeletti” A.I. rendszer?

Talán a képek geolokálásával kapcsolatban. És ez nem túl meglepő - A.I. nem alapvetően az emberi agy utánoznia, hanem az emberi korlátok meghaladását néhány konkrét módon, hogy sokkal nehezebb feladatokat hajtson végre. Tehát ebben az értelemben igaz, hogy mit írnak a kutatók.

Mégis, ez egy szakasz, amely a „NetNet-nek nevezi” a PlaNet-et. Az ilyen típusú technológia ideális formája sokkal többet tudna tanulni, mint a kép geolokációja. Hatóanyagot a rendszerek képesek a szimulációk írására és lejátszására szuper Márió, de ez egy kis dolog az ideális „mester” rendszerhez képest, amely automatikusan figyelemmel kíséri és fenntartja a vitálokat, kezelheti a közlekedést vagy az energia infrastruktúrát, és még sok más.