Hogyan fejlesztette ki a DeepMind egy enyhén tanított A.I. Ez meghaladhatja az embereket

Oriol Vinyals: DeepMind AlphaStar, StarCraft, and Language | Lex Fridman Podcast #20

Oriol Vinyals: DeepMind AlphaStar, StarCraft, and Language | Lex Fridman Podcast #20

Tartalomjegyzék:

Anonim

A számítógépek már néhány évtizeddel rázzák a törékeny emberi szamarat a sakkban. Ez először 1996-ban történt, amikor az IBM Deep Blue képes volt elvenni a világbajnok Gary Kasperovot. De egy új tanulmány Alphabet A.I. A DeepMind megvilágítja, hogy mennyire korlátozott a korai győzelem.

Egyrészt Kasperov visszafelé ugrott, három játékot nyert, és két játékot rajzolt egy hat játék rájátszásban, egy öregre Napi hírek jelentés.

De sokkal inkább, mint azt DeepMind kutató, Julian Schrittwieser mondja fordítottja a Deep Blue programokat manuálisan is programozták. Ez azt jelenti, hogy az embereknek meg kellett tanítaniuk az A.I. mindent, amire szüksége volt ahhoz, hogy megtudja, hogyan kell kezelni minden elképzelhető esetet. Más szóval, csak annyira lehetne olyan jó, mint a programozó emberek. És míg a Deep Blue nyilvánvalóan nagyon jól tudott a sakkban; adjon neki egy másik, hasonló, hasonló játékot, mint a Go, és nem lett volna elégedett.

Az Alpha Zero teljesen más. A folyóiratban ma közzétett új tanulmányban Tudomány a szerzők megmutatják, hogyan tudták nemcsak az Alpha Zero-t megtanítani az emberek megvertetésére a sakkban, hanem az Alpha Zero tanításának módja, tanítsa magát több játék elsajátítása.

Hogyan tanítsunk A.I. Tanítani magát

Az Alpha Zero-t egy mélyreható tanulási módszerrel fejlesztették ki. Ez lényegében az A.I. valami nagyon egyszerű, mint a sakk alapvető szabályai, majd újra és újra ezt az egyszerű dolgot, amíg meg nem tanulja a bonyolultabb, érdekesebb dolgokat, mint a stratégiák és technikák.

„Hagyományosan… az emberek megismerik a játékot, és megpróbálják szabályozni a szabályokat” - mondja Schrittwieser, aki az Alpha Zero-nál közel négy éve dolgozik. „A mi megközelítésünk az, hogy véletlenszerűen inicializáljuk, majd hagyjuk, hogy játékokat játszhasson önmagával szemben, és ezekből a játékokból megtudhatja, hogy milyen stratégiák működnek.”

Az Alpha Zero minden alapvető szabály, és onnan megtanulja, hogyan nyerhet a játék. Az új megállapítások szerint mindössze kilenc órát vett igénybe, hogy az Alpha Zero mesterrel énekelje, 12 órát Shogitól, és körülbelül 13 napot a Go-nak. Mert maga játszik, lényegében önképzett. Az összes világbajnok emberi irányított algoritmusának miniatúrája készült, amely a 2017-es világbajnok Shogi 91% -ában verte meg.

„Függetlenül felfedezhet érdekes tudást a játékról” - mondja Schrittwieser. „Olyan programokhoz vezet, amelyek több embert szeretnek játszani.”

Bár stílusa humánszerű és kreatív, az is valószínűleg optimális, mondja, hogy az Alpha Zero eléggé képes legyen dominálni minden olyan játékban, amelyben hozzáférhet az összes rendelkezésre álló információhoz. Valójában az Alpha Zero annyira kifinomult, lehet, hogy egy teljesen más játékosztályba kell költöznünk, hogy az A.I. megoldja a problémákat.

Miért olyan jó az Alpa Zero

Hatóanyagot A kutatók szeretik ezeket a játékokat, mint néhány okból az egyre kifinomultabb algoritmusformák tesztelésének alapjait. Elegánsak, és az emberek több száz éve játszanak, egyrészt, ami azt jelenti, hogy rengeteg potenciális kihívónak van szüksége az algoritmus tesztelésére. De ezek is bonyolultak és bonyolultak, ami azt jelenti, hogy az A.I. amely képes megoldani a valós világ problémáit. Schrittwieser szerint a következő kutatási terület olyan algoritmus létrehozása, mint az Alpha Zero, amely még mindig optimális döntéseket hozhat hiányos információkkal.

„Mindezen játékokban mindent tud, ami történik” - mondja. „A valós világban csak az információk egy részét tudhatja meg. Lehet, hogy ismeri a saját kártyáit, de nem ismeri az ellenfelét, részleges információval rendelkezik.

Még mindig van néhány asztali játék, amely képes ilyen algoritmusokat adni, mint az Alpha Zero - Schrittwieser megemlítette a Stratego-t, amelyben a játékosok elrejtik mozdulataikat egymástól - és a Starcraft-ot, amely a DeepMind játékközpontú kutatói számára is érdekes.

„Azt a problémát szeretnénk, hogy egyre bonyolultabbá váljunk” - mondja. - De ez mindig egy dimenzió.

Ugyanakkor a Deep Mind következő generációs számítógépes problémamegoldói már megmutatják a lehetőségeket, hogy a játék világából a valós világba költözzenek. A hét elején egy másik, AlphaFold nevű algoritmust jelentett be, amely képes egy fehérjeszekvenciát extrapolálni a 3D szerkezet pontos előrejelzésébe.Problémát jelent, hogy évtizedek óta meggyógyult a tudósok, és segíthet megnyitni az ajtót az Alzheimer-kórtól a cisztás fibrózisig terjedő betegségek gyógyítására.