Veštačka inteligencija naučila je da igra i poker: Ne samo da je pobedila najbolje pokeraš na svetu, već ume i da blefira

Zastrašujuće...

BUKA portal / 19. August 2019

(Facebook AI Research)

 

Za 14 godina koliko profesionalno igra poker, Deren Ilajas nikada se nije suočio ni sa kim ko igra tako neustrašivo.

Tipični pokeraš bi kada mu podele dva žandarma – jednog otvorenog, drugog sakrivenog, ruka ni dobra ni loša – nastavio da igra sa oprezom. Ali ne i Ilajasov protivnik; činilo se da dobro zna šta radi. Čak i kada je Ilajas odlučio da blefira, protivnik je pratio ulog. Naposletku je i pobedio. Još fascinantnije: ovaj protivnik je bila mašina.

Automatizovani igrač pokera nazvan Pluribus dizajnirali su istraživači sa Univerziteta Karnegi Melon u Pensilvaniji i Fejsbukova laboratorija za veštačku inteligenciju u Njujorku.

U tekstu objavljenom 11. jula u časopisu Science, istraživači su objasnili kako je Pluribus pobedio Ilajasa i još nekoliko drugih elitnih profesionalaca u igri „Texas Hold ‘Em“, najpopularnijoj vrsti pokera.

Istraživači su u poslednjih trideset godina izgradili sisteme koji uspevaju da poraze najbolje igrače u šahu, igri „Go“, pa čak i televizijskim kvizovima. Ali za razliku od ovih igara, poker se temelji na skrivenim informacijama. Svaki igrač u rukama drži karte koje protivnik ne sme da vidi.

Pluribus je znao kada treba da blefira, kada da prati ulog i kada da promeni ponašanje tako da drugi igrači ne mogu da dokuče njegovu strategiju.

“On radi sve ono što rade najbolji igrači na svetu”, kaže Ilajas (32), četvorostruki osvajač titule na Svetskom prvenstvu u pokeru. “Radi, doduše, i neke stvari koje ljudi ne umeju.”

Stručnjaci smatraju da bi tehnike koje pokreću ovaj i slične sisteme mogle da se uspešno koriste na Volstritu, aukcijama, u političkim pregovorima i sajber bezbednosti, odnosno aktivnostima koje, kao i poker, podrazumevaju skrivene informacije.

Pluribus je naučio nijanse u igranju „Texas Hold’ Em“ tako što je bilione partija odigrao protiv sebe. Posle svake ruke izvršio bi evaluaciju odluka i odredio da li bi drugačiji izbor doveo do boljeg rezultata.

Sistemima koji briljiraju u trodimenzionalnim video-igrama poput „StarCraft“ potrebne su nedelje, čak meseci da bi naučili kako da igraju protiv ljudi. Pluribus je vežbao svega osam dana na potpuno običnom kompjuteru vrednom 150 dolara. Teži deo bilo je stvaranje detaljnog algoritma koji je analizirao posledice svake odluke koju sistem donese.

Pluribus je na kraju naučio kako da primeni kompleksne strategije, uključujući blefiranje i nepredvidivost u realnom vremenu. Potom je, dok je igrao protiv ljudi, brusio strategije tako što je unapred analizirao moguće ishode.

Sve partije odigrane su onlajn, tako da sistem nije mogao da dešifruje emocionalni odgovor ili gestikulaciju svojih protivnika. Uspeh Pluribusa je pokazao da se poker može svesti na prostu matematiku, kaže Ilajas. “Čisti brojevi i procenti.”

Nedeljnik


Buka preporuka

Nauka i tehnologija

Najnovije

Posmatrajte događaje izbliza.

Prijavite se na naš Newsletter.