Mély „megerősítő tanulás” az új készségek gyorsabb, mint valaha

$config[ads_kvadrat] not found

Diadochi Wars: Battle of Salamis 306 BC DOCUMENTARY

Diadochi Wars: Battle of Salamis 306 BC DOCUMENTARY
Anonim

A robotok megtanulják, hogyan kell teljesíteni a feladatokat a virtuális világokban, és olyan órákon belül fejleszteni a készségeket, amelyek egyébként hónapokat igényelhetnek. A szimulált mélyerősítő tanulás (vagy a Deep RL) olyan készség, amely általában egy A.I. a valóságban való tanulás csak egy napot vesz igénybe a hiper-gyorsított osztályteremben.

„Megvan az a lehetőség, hogy valóban forradalmasíthassa azt, amit tehetünk a robotika területén” - mondta csütörtökön a londoni Re-Work Deep Learning csúcstalálkozón Raia Hadsell, a Google DeepMind kutatója. „Emberi szintű ismereteket tanulhatunk.”

Lehet, hogy intuitívnak tűnik, hiszen a robotok egész pontja a programozók tudják megtanítani őket a dolgoknak, ugye? A valós világban működő gép tervezésénél azonban a robotoknak sok adatra van szükségük ahhoz, hogy megértsék, hogyan lehet egy ismeretlen helyzetben elvégezni a feladatot. Hatóanyagot használhatja ezeket az adatokat, hogy „megtanulhasson” egy készséget az összes korábban előforduló eset alapján.

A mélyreható tanulás összegyűjti az adatokat hasonló módon, ahogyan az emberek megtanulják: egy robot ismételten befejezi a feladatot, mint egy labdát, és rögzíti az adatokat annak érdekében, hogy képet kapjon arról, hogyan lehet a legjobban elkapni a labdát egy új helyzetben. Amikor a DeepMind 2013-ban használta a modellt, hogy tanítson egy robotnak, hogyan kell elsajátítani az Atari játékokat, egyszerűen a képernyő előtt ülve és a végcél megmondásával, a tudományos közösség szerette.

A probléma az, hogy ez örökké tart. Golyókat kell dobnia egy robotra többször, vagy az Atari-ügyben, a robotot egy ideig hagyja egyedül a hálószobájában. A MuJoCo szimuláció futtatása egy progresszív neurális hálózattal kombinálva olyan oktatóprogramokat futtathat, amelyek utánozzák a robotot, átadják a tanult viselkedést a robotnak, és térképezik a virtuális mozgásokat a valós világba.

- Egész nap és egész éjjel tudjuk futtatni ezeket a szimulátorokat - mondta Hadsell.

Az eredmények magukért beszélnek. Ez a robot, aki megkapta a fogási oklevelet, most virtuális golyókat követhet, mintha valódi lenne, és azt a nagy napot kezdte, hogy megkérjék, hogy elkapjon egy igazi labdát:

$config[ads_kvadrat] not found