Hogyan határozza meg a Multi-Armed Bandit, hogy milyen hirdetéseket és történeteket lát online?

Hogyan hat a Carrevir orrspray?

Hogyan hat a Carrevir orrspray?
Anonim

Képzeld el, hogy szerencsejátékos vagy, és több játékgép előtt állsz. A cél az, hogy maximalizálja nyereményeit, de valójában nem tud semmit az egyes gépek által kínált lehetséges jutalmakról. Ön azonban megérti, hogy az Ön által húzott karok és a gyakoriságuk befolyásolják a szerencsejátékra gyakorolt ​​hatását.

Ez a szcenárió, melyet a Las Vegas és az Atlantic City látogatói naponta szembesülnek (függetlenül attól, hogy az emberek még mindig Atlantic Citybe mennek), szintén klasszikus logikai puzzle, amelyet a „Multi-Armed Bandit” -nak neveznek - a játékgépek „One-Armed Az öregedő Reno-típusok által előállított banditák, mivel egy karral rendelkeznek és az emberek pénzét veszik. Bár nincs egyetlen helyes módja annak, hogy a Multi-Armed Bandit helyzetekkel foglalkozzon - a legközelebbi jelölt a Gittins Index -, stratégiai megközelítések vannak a problémák megoldására, amelyeket minden nap nem regisztrálsz, amikor online lépsz. A Google-on és a webhelyeken keresztül a tartalom megjelenítésének számos algoritmusa a MAB stratégiák köré épül. A cél szinte minden esetben a tanulás és az eredmények összekapcsolása, és mindkettő maximalizálása.

A többfunkciós bandit megközelítést használják A Washington Post hogy kitaláljuk, milyen fényképeket és címeket szeretnél rákattintani, és vezeték nélküli hálózatok segítségével kideríteni, hogy melyik optimális, energiatakarékos útvonal a legjobb. Az MBA megközelítésekből kiinduló algoritmusok rendkívül fontosak ezeknek a vállalatoknak és sokan másoknak, mivel alapvetően meghatározzák, hogy mikor és mely hirdetések jelennek meg online.

Kétséges kihívás, hogy az embereknek milyen hirdetések jelennek meg, mert annyi egykarú banditák futnak, amelyek az online dolgokat rákattintanak. A hirdetések MAB-algoritmusai általában gyorsan változó „halálos többfegyveres bandit-problémát” használnak, amelyet véges időszakokban alkalmaznak. A forgalmi adatok egyre hatékonyabb módszerek kidolgozására szolgálnak.

Nehéz pontosan rögzíteni a MAB-okat, mert lehetséges a képlet sok variációjának létrehozása. Például a K-fegyveres banditáknak „fegyverük” van, amelyek versenyeznek a legmagasabb várható jutalomért. A kontextusú banditák ugyanezt teszik, de a „szakértői tanácsokkal” - a felhasználó által korábban gyűjtött adatokkal - és a „ILOVETOCONBANDITS” nevű webkészülék csak előre meghatározott körök ütemezésén működik. Ezzel ellentétben a klasszikus MAB-megközelítésnek nincs olyan oldalsó információja, amely csak lehetséges, és az eredmény csak a kiválasztott cselekvés potenciáljától függ.

Míg az MAB-ok számára a leghasznosabb alkalmazás internetes jellegűnek tűnik, a kutatók arra törekednek, hogy megtalálják a módját, hogy alkalmazzák őket a „valós élet” (más néven meatspace) forgatókönyvekre. A British Columbia Egyetem kutatói egy 2015-ös tanulmányban megvizsgálják a MAB-ok alkalmazását az orvosi vizsgálatokban. A cél, ha az MAB-ok itt lehetségesek, az, hogy egy MAB-algoritmus egy adott gyógyszer hatását mérheti. Nyilvánvaló probléma az, hogy ha ennek a számítógépnek a modulált változata nem hozható létre, ez a megközelítés egyszerűen túl sok időt vesz igénybe. Nincs mód arra, hogy egy MAB-tervet egy klinikai vizsgálatba lehessen helyezni.

Az ötlet szép, de már nem megvalósítható. Amíg a jövő itt nem lesz, többnyire érezni fogja a több fegyveres banditát, amikor kétségbeesetten próbálja kinyomtatni a pop-up hirdetéseket.